机器翻译模型的训练方法、机器翻译方法及相关设备

    公开(公告)号:CN113515959A

    公开(公告)日:2021-10-19

    申请号:CN202110700079.9

    申请日:2021-06-23

    Abstract: 本公开提供一种机器翻译模型的训练方法、机器翻译方法及相关设备,该训练方法包括:获取原始训练语料和训练用术语词典;根据训练用术语词典,对原始训练语料进行匹配检索,得到若干训练用术语匹配项;所述训练用术语匹配项包括:训练用源端术语及其对应的训练用目标端术语;根据若干训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料;为每个训练用目标端术语添加训练用术语位置标签,得到若干训练用术语约束项,并根据若干所述训练用术语约束项,得到训练用术语约束;根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练。本公开还提供了一种机器翻译方法及相关设备。

    词表变换方法、装置、设备及存储介质

    公开(公告)号:CN117350279A

    公开(公告)日:2024-01-05

    申请号:CN202311040291.2

    申请日:2023-08-17

    Abstract: 本发明的实施方式提供了一种词表变换方法、装置、设备及存储介质其中,所述方法包括:获取语言模型对应的第一词表;基于目标场景的语料库,构建第二词表;其中,所述第二词表至少包括所述第一词表中缺少的词令牌;确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系;基于所述映射关系对所述语言模型中的词向量参数进行对齐变换。这样,利用目标场景的语料库构建全新的第二词表,并通过对齐变换使得语言模型从之前的词表转换到适配目标场景的新词表上,从而加速该模型上对目标语言的编码解码速度,提升后续在目标场景的语料库上的预训练质量。

    训练数据预处理方法、装置、电子设备及存储介质

    公开(公告)号:CN116384413A

    公开(公告)日:2023-07-04

    申请号:CN202211636383.2

    申请日:2022-12-14

    Abstract: 本申请的实施方式提供了一种训练数据预处理方法、装置、电子设备及存储介质。该训练数据预处理方法包括:获取训练句对,训练句对包含源端句子以及目标端句子;基于源端句子以及目标端句子确定候选句对集;基于候选句对集确定源端句子的待删除句段和/或目标端句子中的待删除句段;基于待删除句段修复训练句对,得到目标训练句对。本申请提供的技术方案,能够在训练数据中检测未对齐的句对,并且能够对未对齐句对进行修复处理,提高训练数据的数据质量,有利于提升机器翻译的翻译效果,减少机器翻译的漏译情况,提升用户的使用体验感。

    机器翻译模型的训练方法、机器翻译方法及相关设备

    公开(公告)号:CN113515959B

    公开(公告)日:2022-02-11

    申请号:CN202110700079.9

    申请日:2021-06-23

    Abstract: 本公开提供一种机器翻译模型的训练方法、机器翻译方法及相关设备,该训练方法包括:获取原始训练语料和训练用术语词典;根据训练用术语词典,对原始训练语料进行匹配检索,得到若干训练用术语匹配项;所述训练用术语匹配项包括:训练用源端术语及其对应的训练用目标端术语;根据若干训练用术语匹配项,生成辅助训练语料,并将所述原始训练语料和所述辅助训练语料进行组合,得到组合训练语料;为每个训练用目标端术语添加训练用术语位置标签,得到若干训练用术语约束项,并根据若干所述训练用术语约束项,得到训练用术语约束;根据所述组合训练语料和所述训练用术语约束,对所述机器翻译模型进行训练。本公开还提供了一种机器翻译方法及相关设备。

Patent Agency Ranking