-
公开(公告)号:CN114863946B
公开(公告)日:2024-07-30
申请号:CN202210444572.3
申请日:2022-04-26
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于音素级别说话人迁移的语音克隆方法,包括:1)使用语音对齐工具获得目标说话人语音和音素的对齐关系R,使用时序神经网络从语音频谱中提取帧级别音色特征Ef;2)根据对齐关系R和帧级别音色特征Ef计算部分音素的音素级别音色特征Ep;3)使用注意力机制根据部分音素的音素级别音色特征Ep计算所有音素的音素级别音色特征E′p;4)结合实际文本和全局音素的音素级别音色特征E′p,生成目标说话人音色的语音。本发明可以实现在仅有少量目标说话人语音数据的情况下,克隆目标说话人音色。
-
公开(公告)号:CN114863946A
公开(公告)日:2022-08-05
申请号:CN202210444572.3
申请日:2022-04-26
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于音素级别说话人迁移的语音克隆方法,包括:1)使用语音对齐工具获得目标说话人语音和音素的对齐关系R,使用时序神经网络从语音频谱中提取帧级别音色特征Ef;2)根据对齐关系R和帧级别音色特征Ef计算部分音素的音素级别音色特征Ep;3)使用注意力机制根据部分音素的音素级别音色特征Ep计算所有音素的音素级别音色特征E′p;4)结合实际文本和全局音素的音素级别音色特征E′p,生成目标说话人音色的语音。本发明可以实现在仅有少量目标说话人语音数据的情况下,克隆目标说话人音色。
-