-
公开(公告)号:CN116072100A
公开(公告)日:2023-05-05
申请号:CN202211685174.7
申请日:2022-12-27
Applicant: 广东工业大学
IPC: G10L13/047 , G10L13/10 , G10L25/18
Abstract: 本发明公开了一种基于深度学习的有声书韵律语音合成方法,首先,通过说话人编码器模块,提取参考音频的音频特征;其次,将待合成音频文本传入编码器和时长预测器并融合参考音频特征得到音频编码;接着通过韵律预测器和解码器输出合成音频频谱;最后,通过声码器将频谱转化为合成音频。本发明通过引入轻量卷积、韵律预测器,结合音素持续时长和音素韵律特征进行模型的训练,控制生成音频的全局韵律,解决发音容易出现错误且发声韵律单调无变化问题。