基于音素级别说话人迁移的语音克隆方法

    公开(公告)号:CN114863946B

    公开(公告)日:2024-07-30

    申请号:CN202210444572.3

    申请日:2022-04-26

    Inventor: 钟竞辉 杨宜涛

    Abstract: 本发明公开了一种基于音素级别说话人迁移的语音克隆方法,包括:1)使用语音对齐工具获得目标说话人语音和音素的对齐关系R,使用时序神经网络从语音频谱中提取帧级别音色特征Ef;2)根据对齐关系R和帧级别音色特征Ef计算部分音素的音素级别音色特征Ep;3)使用注意力机制根据部分音素的音素级别音色特征Ep计算所有音素的音素级别音色特征E′p;4)结合实际文本和全局音素的音素级别音色特征E′p,生成目标说话人音色的语音。本发明可以实现在仅有少量目标说话人语音数据的情况下,克隆目标说话人音色。

    基于音素级别说话人迁移的语音克隆方法

    公开(公告)号:CN114863946A

    公开(公告)日:2022-08-05

    申请号:CN202210444572.3

    申请日:2022-04-26

    Inventor: 钟竞辉 杨宜涛

    Abstract: 本发明公开了一种基于音素级别说话人迁移的语音克隆方法,包括:1)使用语音对齐工具获得目标说话人语音和音素的对齐关系R,使用时序神经网络从语音频谱中提取帧级别音色特征Ef;2)根据对齐关系R和帧级别音色特征Ef计算部分音素的音素级别音色特征Ep;3)使用注意力机制根据部分音素的音素级别音色特征Ep计算所有音素的音素级别音色特征E′p;4)结合实际文本和全局音素的音素级别音色特征E′p,生成目标说话人音色的语音。本发明可以实现在仅有少量目标说话人语音数据的情况下,克隆目标说话人音色。

Patent Agency Ranking