声学深度学习模型训练方法、语音生成方法及设备

发明授权

CN113763924B 声学深度学习模型训练方法、语音生成方法及设备有权

请登陆查看更多内容

专利标题： 声学深度学习模型训练方法、语音生成方法及设备
申请号： CN202111310778.9

申请日： 2021-11-08
公开(公告)号： CN113763924B

公开(公告)日： 2022-02-15
发明人: 陈栋
申请人： 北京优幕科技有限责任公司
申请人地址： 北京市海淀区中关村大街18号8层05-609
专利权人： 北京优幕科技有限责任公司
当前专利权人： 北京优幕科技有限责任公司
当前专利权人地址： 北京市海淀区中关村大街18号8层05-609
代理机构： 北京力致专利代理事务所
代理商 陈博旸
主分类号： G10L15/00
IPC分类号： G10L15/00 ; G10L15/02 ; G10L15/06 ; G10L15/16 ; G10L15/26 ; G10L13/027

摘要：

本申请提供一种声学深度学习模型训练方法、语音生成方法及设备，所述语音生成方法包括：获取文本数据和语种信息；根据所述语种信息将所述文本数据转换为音素，并为每个所述音素分别添加语种标签；利用深度学习模型生成音频数据，所述深度学习模型包括音频生成模块、文本特征提取模块、流映射模块和时长预测模块，其中所述文本特征提取模块用于对所述音素提取文本特征值，所述时长预测模块用于根据所述文本特征提取模块提取的文本特征生成时长信息，所述流映射模块用于根据所述文本特征值和所述时长信息计算潜在变量，并根据所述潜在变量生成频谱特征数据，所述音频生成模块根据所述频谱特征数据生成音频数据。

公开/授权文献

CN113763924A 声学深度学习模型训练方法、语音生成方法及设备公开/授权日：2021-12-07

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）