语音合成方法、装置、设备及存储介质

    公开(公告)号:CN118782019A

    公开(公告)日:2024-10-15

    申请号:CN202310364801.5

    申请日:2023-04-03

    Abstract: 本申请提供了语音合成方法、装置、设备及存储介质,具体实现方案为:获取待处理文本的子句级韵律信息和音素级韵律信息;基于所述待处理文本、所述子句级韵律信息和所述音素级韵律信息确定与所述待处理文本对应的声学特征;基于所述声学特征合成目标语音。根据本申请的技术方案,能够有效提高语音合成的准确性。

    语音合成方法以及电子设备、存储装置

    公开(公告)号:CN112786004B

    公开(公告)日:2024-05-31

    申请号:CN202011615062.5

    申请日:2020-12-30

    Abstract: 本申请公开了一种语音合成方法以及电子设备、存储装置,其中,语音合成方法包括:获取待合成文本和待合成文本的目标情感类型,并获取目标情感类型的参考音频;基于参考音频关于韵律参数的数据分布情况,获取与目标情感类型对应的韵律特征;其中,韵律参数包括以下至少一种:基频、强度、时长;以及,对待合成文本的音素序列进行特征提取,得到待合成文本的音素特征;利用韵律特征和音素特征进行解码,得到待合成文本融入目标情感类型后的合成音频。上述方案,能够准确地在合成音频中融入情感。

    一种角色属性的预测方法、训练方法及相关装置

    公开(公告)号:CN117932062A

    公开(公告)日:2024-04-26

    申请号:CN202311870842.8

    申请日:2023-12-29

    Abstract: 本申请公开了一种角色属性的预测方法、训练方法及相关装置,该方法包括:获取待预测文本;其中,待预测文本中至少包括一个目标人物角色;从待预测文本中,筛选出与各目标人物角色的属性相关的目标文本内容;基于与各目标人物角色的属性相关的目标文本内容,对各目标人物角色的属性进行预测,得到各目标人物角色的目标属性预测结果。通过上述方式,本申请能够提高角色属性的准确性。

    声音转换模型的训练方法、电子设备及存储介质

    公开(公告)号:CN112802462A

    公开(公告)日:2021-05-14

    申请号:CN202011627564.X

    申请日:2020-12-31

    Abstract: 本申请公开了一种声音转换模型的训练方法、电子设备及存储介质。该方法包括:从第一语音数据集中获取第一训练语音数据,其中,第一语音数据集中包括目标说话人的多条语音数据,第一训练语音数据对应第一声学特征;获取第一声学特征对应的后验概率特征;将第一声学特征对应的后验概率特征和第一辅助音色特征输入声音转换模型,得到第一平行特征;获取第一平行特征对应的后验概率特征;将第一平行特征对应的后验概率特征和目标音色特征输入声音转换模型,得到第二声学特征;基于第二声学特征和第一声学特征之间的差异,调整声音转换模型的参数。通过上述方式,能够提高声音转换模型的转换效果。

    语音合成方法以及电子设备、存储装置

    公开(公告)号:CN112786004A

    公开(公告)日:2021-05-11

    申请号:CN202011615062.5

    申请日:2020-12-30

    Abstract: 本申请公开了一种语音合成方法以及电子设备、存储装置,其中,语音合成方法包括:获取待合成文本和待合成文本的目标情感类型,并获取目标情感类型的参考音频;基于参考音频关于韵律参数的数据分布情况,获取与目标情感类型对应的韵律特征;其中,韵律参数包括以下至少一种:基频、强度、时长;以及,对待合成文本的音素序列进行特征提取,得到待合成文本的音素特征;利用韵律特征和音素特征进行解码,得到待合成文本融入目标情感类型后的合成音频。上述方案,能够准确地在合成音频中融入情感。

    音素对齐方法、系统、电子设备及存储介质

    公开(公告)号:CN119724147A

    公开(公告)日:2025-03-28

    申请号:CN202411951359.7

    申请日:2024-12-27

    Abstract: 本发明提供一种音素对齐方法、系统、电子设备及存储介质,其中方法包括:将目标音频的初始音频特征和目标文本的初始音素特征输入至音素对齐模型中的特征提取模块,得到所述目标音频的目标音频特征和所述目标文本的目标音素特征;将所述目标音频特征和所述目标音素特征输入至所述音素对齐模型中的注意力模块,得到音素对齐矩阵;根据所述音素对齐矩阵,获取所述初始音频特征对应的音素序号标签预测值,并根据所述音素序号标签预测值,对所述目标音频和所述目标文本进行音素对齐处理。本发明实现通过特征精细化提取和注意力计算进行音素序号标签的稳定、精准预测,以有效提高音素对齐的鲁棒性和泛化性。

    语音合成方法及相关装置、电子设备和存储介质

    公开(公告)号:CN118471186A

    公开(公告)日:2024-08-09

    申请号:CN202410515587.3

    申请日:2024-04-26

    Abstract: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:获取待合成文本和目标对象的参考语音;基于待合成文本的音素序列进行编码,得到音素序列中各个音素的音素编码特征,并基于参考语音进行编码,得到多尺度语音特征,以及获取音素序列中各个音素的预测发音时长;基于多尺度语音特征以及各个音素的音素编码特征和预测发音时长进行解码,得到合成语音;其中,多尺度语音特征包括音素级语音特征、帧级语音特征、全局语音特征中至少两者。上述方案,有助于在语音合成中尽可能地保留目标对象诸如发音、韵律等细节信息,能够提升语音合成的相似性。

Patent Agency Ranking