Patent search ap:("华南理工大学") AND inv:"杨宜涛" Page 1

1.

发明授权
基于音素级别说话人迁移的语音克隆方法有权

公开(公告)号：CN114863946B

公开(公告)日：2024-07-30

申请号：CN202210444572.3

申请日：2022-04-26

Applicant: 华南理工大学

Inventor： 钟竞辉 , 杨宜涛

IPC: G10L25/30 , G10L13/02

Abstract: 本发明公开了一种基于音素级别说话人迁移的语音克隆方法，包括：1)使用语音对齐工具获得目标说话人语音和音素的对齐关系R，使用时序神经网络从语音频谱中提取帧级别音色特征Ef；2)根据对齐关系R和帧级别音色特征Ef计算部分音素的音素级别音色特征Ep；3)使用注意力机制根据部分音素的音素级别音色特征Ep计算所有音素的音素级别音色特征E′p；4)结合实际文本和全局音素的音素级别音色特征E′p，生成目标说话人音色的语音。本发明可以实现在仅有少量目标说话人语音数据的情况下，克隆目标说话人音色。

2.

发明公开
基于音素级别说话人迁移的语音克隆方法有权

公开(公告)号：CN114863946A

公开(公告)日：2022-08-05

申请号：CN202210444572.3

申请日：2022-04-26

Applicant: 华南理工大学

Inventor： 钟竞辉 , 杨宜涛

IPC: G10L25/30 , G10L13/02

Abstract: 本发明公开了一种基于音素级别说话人迁移的语音克隆方法，包括：1)使用语音对齐工具获得目标说话人语音和音素的对齐关系R，使用时序神经网络从语音频谱中提取帧级别音色特征Ef；2)根据对齐关系R和帧级别音色特征Ef计算部分音素的音素级别音色特征Ep；3)使用注意力机制根据部分音素的音素级别音色特征Ep计算所有音素的音素级别音色特征E′p；4)结合实际文本和全局音素的音素级别音色特征E′p，生成目标说话人音色的语音。本发明可以实现在仅有少量目标说话人语音数据的情况下，克隆目标说话人音色。

Patent Agency Ranking