-
公开(公告)号:CN119724148A
公开(公告)日:2025-03-28
申请号:CN202510224088.3
申请日:2025-02-27
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G06F40/30 , G06N3/0455 , G06N3/0464 , G06N3/0475 , G06N3/094
Abstract: 本申请公开了一种语音合成方法及相关装置、设备和存储介质,其中,语音合成方法包括:基于特征预测模型预测待合成字符序列的发音特征;其中,待合成字符序列为文本序列或音素序列,发音特征至少包含待合成字符序列与发音内容和发音韵律相关的特征信息;基于声学模型对发音特征和待合成字符序列的序列隐层特征进行预测,得到声学特征;其中,序列隐层特征为特征预测模型处理待合成字符序列过程中所得到的隐层特征;基于声码器对声学特征进行波形恢复,得到合成语音。上述方案,能够提升语音合成的稳定性和自然度。
-
公开(公告)号:CN118782019A
公开(公告)日:2024-10-15
申请号:CN202310364801.5
申请日:2023-04-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了语音合成方法、装置、设备及存储介质,具体实现方案为:获取待处理文本的子句级韵律信息和音素级韵律信息;基于所述待处理文本、所述子句级韵律信息和所述音素级韵律信息确定与所述待处理文本对应的声学特征;基于所述声学特征合成目标语音。根据本申请的技术方案,能够有效提高语音合成的准确性。
-
公开(公告)号:CN118135995A
公开(公告)日:2024-06-04
申请号:CN202410125928.6
申请日:2024-01-29
Applicant: 科大讯飞股份有限公司
IPC: G10L13/10 , G10L13/08 , G10L13/027 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本申请公开了一种语音合成方法、装置、设备和存储介质,语音合成方法包括:获取第一待合成文本的目标语音特征,目标语音特征表征有第一待合成文本对应的音素信息、韵律信息和副语言标签信息;利用目标语音特征进行语音合成,得到第一待合成文本对应的目标合成语音。通过上述方式,能够提高目标合成语音的拟人化效果。
-
公开(公告)号:CN112786004B
公开(公告)日:2024-05-31
申请号:CN202011615062.5
申请日:2020-12-30
Applicant: 中国科学技术大学 , 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法以及电子设备、存储装置,其中,语音合成方法包括:获取待合成文本和待合成文本的目标情感类型,并获取目标情感类型的参考音频;基于参考音频关于韵律参数的数据分布情况,获取与目标情感类型对应的韵律特征;其中,韵律参数包括以下至少一种:基频、强度、时长;以及,对待合成文本的音素序列进行特征提取,得到待合成文本的音素特征;利用韵律特征和音素特征进行解码,得到待合成文本融入目标情感类型后的合成音频。上述方案,能够准确地在合成音频中融入情感。
-
公开(公告)号:CN117932062A
公开(公告)日:2024-04-26
申请号:CN202311870842.8
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06F16/35 , G06F18/2431
Abstract: 本申请公开了一种角色属性的预测方法、训练方法及相关装置,该方法包括:获取待预测文本;其中,待预测文本中至少包括一个目标人物角色;从待预测文本中,筛选出与各目标人物角色的属性相关的目标文本内容;基于与各目标人物角色的属性相关的目标文本内容,对各目标人物角色的属性进行预测,得到各目标人物角色的目标属性预测结果。通过上述方式,本申请能够提高角色属性的准确性。
-
公开(公告)号:CN117116247A
公开(公告)日:2023-11-24
申请号:CN202311030882.1
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
IPC: G10L13/02 , G10L13/08 , G10L13/047
Abstract: 本发明提供了一种音频生成方法、装置、设备及存储介质,音频生成方法包括:获取目标文本;确定目标文本所涉及的角色,得到若干角色;确定与每个角色匹配的发音人信息,并确定目标文本中每个句子所属的角色;根据目标文本、与每个角色匹配的发音人信息以及目标文本中每个句子所属的角色,合成目标文本对应的音频,在合成音频后,还可为合成的音频添加音效和背景音乐。本发明提供的音频生成方法可根据目标文本生成声音丰富的音频,收听者体验较好。
-
公开(公告)号:CN112802462A
公开(公告)日:2021-05-14
申请号:CN202011627564.X
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声音转换模型的训练方法、电子设备及存储介质。该方法包括:从第一语音数据集中获取第一训练语音数据,其中,第一语音数据集中包括目标说话人的多条语音数据,第一训练语音数据对应第一声学特征;获取第一声学特征对应的后验概率特征;将第一声学特征对应的后验概率特征和第一辅助音色特征输入声音转换模型,得到第一平行特征;获取第一平行特征对应的后验概率特征;将第一平行特征对应的后验概率特征和目标音色特征输入声音转换模型,得到第二声学特征;基于第二声学特征和第一声学特征之间的差异,调整声音转换模型的参数。通过上述方式,能够提高声音转换模型的转换效果。
-
公开(公告)号:CN112786004A
公开(公告)日:2021-05-11
申请号:CN202011615062.5
申请日:2020-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法以及电子设备、存储装置,其中,语音合成方法包括:获取待合成文本和待合成文本的目标情感类型,并获取目标情感类型的参考音频;基于参考音频关于韵律参数的数据分布情况,获取与目标情感类型对应的韵律特征;其中,韵律参数包括以下至少一种:基频、强度、时长;以及,对待合成文本的音素序列进行特征提取,得到待合成文本的音素特征;利用韵律特征和音素特征进行解码,得到待合成文本融入目标情感类型后的合成音频。上述方案,能够准确地在合成音频中融入情感。
-
公开(公告)号:CN119724147A
公开(公告)日:2025-03-28
申请号:CN202411951359.7
申请日:2024-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种音素对齐方法、系统、电子设备及存储介质,其中方法包括:将目标音频的初始音频特征和目标文本的初始音素特征输入至音素对齐模型中的特征提取模块,得到所述目标音频的目标音频特征和所述目标文本的目标音素特征;将所述目标音频特征和所述目标音素特征输入至所述音素对齐模型中的注意力模块,得到音素对齐矩阵;根据所述音素对齐矩阵,获取所述初始音频特征对应的音素序号标签预测值,并根据所述音素序号标签预测值,对所述目标音频和所述目标文本进行音素对齐处理。本发明实现通过特征精细化提取和注意力计算进行音素序号标签的稳定、精准预测,以有效提高音素对齐的鲁棒性和泛化性。
-
公开(公告)号:CN118471186A
公开(公告)日:2024-08-09
申请号:CN202410515587.3
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:获取待合成文本和目标对象的参考语音;基于待合成文本的音素序列进行编码,得到音素序列中各个音素的音素编码特征,并基于参考语音进行编码,得到多尺度语音特征,以及获取音素序列中各个音素的预测发音时长;基于多尺度语音特征以及各个音素的音素编码特征和预测发音时长进行解码,得到合成语音;其中,多尺度语音特征包括音素级语音特征、帧级语音特征、全局语音特征中至少两者。上述方案,有助于在语音合成中尽可能地保留目标对象诸如发音、韵律等细节信息,能够提升语音合成的相似性。
-
-
-
-
-
-
-
-
-