一种基于元学习及语言对子网的多语言神经机器翻译模型训练方法

    公开(公告)号:CN119783692A

    公开(公告)日:2025-04-08

    申请号:CN202411852040.9

    申请日:2024-12-16

    Abstract: 一种基于元学习及语言对子网的多语言神经机器翻译模型训练方法,它属于机器翻译技术领域。本发明解决了现有的多语言翻译共享模型的翻译性能差的问题。本发明借助ML方法对多语言翻译模型进行初始参数优化,得到局部最优参数值,ML通过学习任务间共享表示,并对每种语言对进行自适应调整,可以减少参数干扰,保证翻译性能。通过学习语言特定子网可以获得每种语言对任务的掩码矩阵,在模型训练时每次仅仅更新输入语言对数据对应的模型参数,使多语言翻译模型能够避免参数干扰,同时提升训练效率。在后续翻译任务中,仅需要掩码矩阵中元素1对应的模型参数来参与翻译结果预测,降低了模型计算的复杂度。本发明方法可以应用于机器翻译领域。

Patent Agency Ranking