基于跨语言预训练模型的藏汉语音到语音翻译方法及系统

    公开(公告)号:CN116778955A

    公开(公告)日:2023-09-19

    申请号:CN202310664414.3

    申请日:2023-06-06

    Abstract: 本发明公开了一种基于跨语言预训练模型的藏汉语音到语音翻译方法及系统,涉及语音翻译技术领域,通过构建藏汉平行语音语料库,并进行特征提取,得到源语言梅尔谱图和目标语言梅尔谱图,将源语言梅尔谱图进行编码处理,得到输出结果;构建声谱预测模型,引入多头注意力机制计算注意力权重,对输出结果分配注意力权重,得到注意力上下文向量,同时对目标语言梅尔谱图进行重构,并将注意力上下文向量和重构结果进行拼接,得到预测的梅尔谱图;将预测的梅尔谱图输入到声码器中,得到目标语言语音,在此预测过程中不需要任何中间文本的支持,可以有效降低级联式语音到语音翻译系统中的三大弊端,具有重要理论研究意义。

Patent Agency Ranking