-
公开(公告)号:CN119811363A
公开(公告)日:2025-04-11
申请号:CN202510304422.6
申请日:2025-03-14
Applicant: 科大讯飞股份有限公司
IPC: G10L13/027 , G10L13/08 , G10L13/10 , G06F40/263 , G06F40/279 , G06F40/30 , G06N3/0455 , G06N3/088 , G06N3/094
Abstract: 本申请公开了一种语音合成方法、装置、设备和存储介质,该方法包括:获取待合成文本对应的音素序列;基于时长预测相关信息进行时长预测,得到待合成文本对应的目标时长信息,其中,时长预测相关信息包括参考语音的参考时长信息、待合成文本和音素序列;基于目标时长信息进行语音表征预测,得到目标细粒度语音表征;基于目标细粒度语音表征合成目标语音。上述方案,能够提升语音合成的效果。
-
公开(公告)号:CN112802462B
公开(公告)日:2024-05-31
申请号:CN202011627564.X
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声音转换模型的训练方法、电子设备及存储介质。该方法包括:从第一语音数据集中获取第一训练语音数据,其中,第一语音数据集中包括目标说话人的多条语音数据,第一训练语音数据对应第一声学特征;获取第一声学特征对应的后验概率特征;将第一声学特征对应的后验概率特征和第一辅助音色特征输入声音转换模型,得到第一平行特征;获取第一平行特征对应的后验概率特征;将第一平行特征对应的后验概率特征和目标音色特征输入声音转换模型,得到第二声学特征;基于第二声学特征和第一声学特征之间的差异,调整声音转换模型的参数。通过上述方式,能够提高声音转换模型的转换效果。
-
公开(公告)号:CN112802462A
公开(公告)日:2021-05-14
申请号:CN202011627564.X
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声音转换模型的训练方法、电子设备及存储介质。该方法包括:从第一语音数据集中获取第一训练语音数据,其中,第一语音数据集中包括目标说话人的多条语音数据,第一训练语音数据对应第一声学特征;获取第一声学特征对应的后验概率特征;将第一声学特征对应的后验概率特征和第一辅助音色特征输入声音转换模型,得到第一平行特征;获取第一平行特征对应的后验概率特征;将第一平行特征对应的后验概率特征和目标音色特征输入声音转换模型,得到第二声学特征;基于第二声学特征和第一声学特征之间的差异,调整声音转换模型的参数。通过上述方式,能够提高声音转换模型的转换效果。
-
公开(公告)号:CN118471186A
公开(公告)日:2024-08-09
申请号:CN202410515587.3
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:获取待合成文本和目标对象的参考语音;基于待合成文本的音素序列进行编码,得到音素序列中各个音素的音素编码特征,并基于参考语音进行编码,得到多尺度语音特征,以及获取音素序列中各个音素的预测发音时长;基于多尺度语音特征以及各个音素的音素编码特征和预测发音时长进行解码,得到合成语音;其中,多尺度语音特征包括音素级语音特征、帧级语音特征、全局语音特征中至少两者。上述方案,有助于在语音合成中尽可能地保留目标对象诸如发音、韵律等细节信息,能够提升语音合成的相似性。
-
-
-