声学深度学习模型训练方法、语音生成方法及设备
摘要:
本申请提供一种声学深度学习模型训练方法、语音生成方法及设备,所述语音生成方法包括:获取文本数据和语种信息;根据所述语种信息将所述文本数据转换为音素,并为每个所述音素分别添加语种标签;利用深度学习模型生成音频数据,所述深度学习模型包括音频生成模块、文本特征提取模块、流映射模块和时长预测模块,其中所述文本特征提取模块用于对所述音素提取文本特征值,所述时长预测模块用于根据所述文本特征提取模块提取的文本特征生成时长信息,所述流映射模块用于根据所述文本特征值和所述时长信息计算潜在变量,并根据所述潜在变量生成频谱特征数据,所述音频生成模块根据所述频谱特征数据生成音频数据。
专利代理机构排行榜
0/0