-
公开(公告)号:CN118038849B
公开(公告)日:2024-08-16
申请号:CN202410179835.1
申请日:2024-02-18
Applicant: 中央民族大学
IPC: G10L13/08 , G10L13/04 , G10L13/033 , G10L25/30 , G10L25/18
Abstract: 本发明公开了一种基于Transformer的个性化藏语语音合成方法及系统,属于语音合成技术领域,该方法包括:获取不同藏语文本,得到拉丁字母文本集;获取不同的音频数据,得到语音梅尔频谱图集;将GST中的reference encoder和注意力机制模块引入Transformer模型,构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出一段与待合成的语音音色相似度较高,与对应文本匹配度高的语音梅尔谱。
-
公开(公告)号:CN118038849A
公开(公告)日:2024-05-14
申请号:CN202410179835.1
申请日:2024-02-18
Applicant: 中央民族大学
IPC: G10L13/08 , G10L13/04 , G10L13/033 , G10L25/30 , G10L25/18
Abstract: 本发明公开了一种基于Transformer的个性化藏语语音合成方法及系统,属于语音合成技术领域,该方法包括:获取不同藏语文本,得到拉丁字母文本集;获取不同的音频数据,得到语音梅尔频谱图集;将GST中的reference encoder和注意力机制模块引入Transformer模型,构建藏语语音合成模型,将所述拉丁字母文本集以及所述语音梅尔频谱图集输入到所述藏语语音合成模型进行训练,得到训练好的藏语语音合成模型;将一段待合成的语音及文本作为训练好的藏语语音合成模型的输入,输出一段与待合成的语音音色相似度较高,与对应文本匹配度高的语音梅尔谱。
-