语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN119785766A

    公开(公告)日:2025-04-08

    申请号:CN202411754113.0

    申请日:2024-12-02

    Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:基于用户的语音合成偏好,从多个语音合成模型中选取目标语音合成模型,基于待合成文本,应用目标语音合成模型进行语音合成,得到符合语音合成偏好的合成语音;每一语音合成模型基于多个偏好对应的偏好数据集和偏好权重配置训练得到,不同语音合成模型训练时所使用的偏好权重配置不同,克服了传统方案中针对于语音合成模型的人类偏好对齐方法仅能对齐单一的人类偏好,无法满足多样化的人类偏好需求的缺陷,通过多目标直接偏好优化方式训练语音合成模型,不仅使得训练过程更加简单高效,还能够从多个维度进行人类偏好对齐,通过赋予各偏好权重以满足多样化的人类偏好需求。

    语音合成生成方法、电子设备和存储介质

    公开(公告)号:CN119864006A

    公开(公告)日:2025-04-22

    申请号:CN202411904686.7

    申请日:2024-12-23

    Abstract: 本申请公开了一种语音合成生成方法、电子设备和存储介质。该方法包括:获取初始语音数据对应的初始语音特征和初始韵律特征;将所述初始语音特征和所述初始韵律特征进行拼接,得到初始待加噪对象;对所述初始待加噪对象进行加噪,得到加噪对象;将所述加噪对象和所述初始语音数据对应的音素序列输入到扩散模型,以对所述加噪对象进行去噪,得到目标对象,其中所述目标对象包括目标语音特征与目标韵律特征的组合;获取所述目标对象对应的目标语音数据。本申请提升了语音生成的自然度和表现力。

Patent Agency Ranking