发明授权
- 专利标题: 一种基于变分自编码器的多说话人语音合成方法
-
申请号: CN201910671050.5申请日: 2019-07-24
-
公开(公告)号: CN112289304B公开(公告)日: 2024-05-31
- 发明人: 张鹏远 , 蒿晓阳 , 颜永红
- 申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
- 申请人地址: 北京市海淀区北四环西路21号;
- 专利权人: 中国科学院声学研究所,北京中科信利技术有限公司
- 当前专利权人: 中国科学院声学研究所
- 当前专利权人地址: 100190 北京市海淀区北四环西路21号
- 代理机构: 北京方安思达知识产权代理有限公司
- 代理商 陈琳琳; 王宇杨
- 主分类号: G10L13/08
- IPC分类号: G10L13/08 ; G10L13/10 ; G10L25/03 ; G10L25/27
摘要:
本发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。
公开/授权文献
- CN112289304A 一种基于变分自编码器的多说话人语音合成方法 公开/授权日:2021-01-29