语法缺陷数据识别模型构建方法和语法缺陷数据识别方法

    公开(公告)号:CN112668345B

    公开(公告)日:2024-06-04

    申请号:CN202011552924.4

    申请日:2020-12-24

    Abstract: 本申请公开了一种语法缺陷数据识别模型构建方法和语法缺陷数据识别方法,该构建方法包括:在获取到第一训练源文本、第一标准翻译文本及其对应的第一实际识别结果、和第一语法缺陷翻译文本及其对应的第二实际识别结果后,将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,得到第一标准翻译文本对应的第一预测识别结果和第一语法缺陷翻译文本对应的第二预测识别结果;再根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果更新第一模型,并返回执行将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时根据第一模型构建语法缺陷数据识别模型。

    文本翻译方法、装置、电子设备和存储介质

    公开(公告)号:CN112686059B

    公开(公告)日:2024-04-16

    申请号:CN202011593142.5

    申请日:2020-12-29

    Abstract: 本发明提供一种文本翻译方法、装置、电子设备和存储介质,其中方法包括:确定源语言文本,以及与源语言文本相匹配的翻译文本对;将源语言文本以及翻译文本对输入至机器翻译模型,得到机器翻译模型输出的目标语言文本;机器翻译模型是基于样本源语言文本、与样本源语言文本相匹配的样本翻译文本对,以及样本源语言文本的样本目标语言文本训练得到的。本发明提供的方法、装置、电子设备和存储介质,机器翻译模型能够将翻译文本对的信息作为对源语言文本进行翻译的参考,从而优化翻译效果。且无需重新对机器翻译模型进行迭代优化,且当实际场景发生变化时,仅需累积实际场景变化后的翻译文本对即可保证机器翻译及时满足场景变化需求。

    文本翻译方法及相关装置、电子设备、存储介质

    公开(公告)号:CN113723116B

    公开(公告)日:2024-02-13

    申请号:CN202110982411.5

    申请日:2021-08-25

    Inventor: 张为泰

    Abstract: 本申请公开了一种文本翻译方法及相关装置、电子设备、存储介质,其中,文本翻译方法包括:获取待翻译文本和若干参考文本;其中,待翻译文本以源语种表示,待翻译文本中含有多义词,若干参考文本以目标语种表示,且各个参考文本中均含有多义词的释义词语;提取待翻译文本中多义词的第一语义表示,并分别提取各个参考文本中释义词语的第二语义表示;基于第一语义表示和第二语义表示的聚类结果,获取多义词在待翻译文本中以目标语种释义的翻译词语;基于翻译词语对待翻译文本进行翻译,得到以目标语种表示的翻译文本。上述方案,能够提高翻译准确性。

    平行句对构建方法、装置、电子设备和存储介质

    公开(公告)号:CN115062633B

    公开(公告)日:2025-05-13

    申请号:CN202210688236.3

    申请日:2022-06-16

    Abstract: 本发明提供一种平行句对构建方法、装置、电子设备和存储介质,其中方法包括:获取第一语句和第二语句,第一语句和第二语句对应不同语种;基于跨语种语言模型,确定第一语句的第一语义特征和第二语句的第二语义特征,跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,第一样本语句和第二样本语句对应不同语种;基于第一语义特征和第二语义特征之间的相似度,构建平行句对,本发明实施例中,应用不同语种的样本语句各自包含的分词之间的词义关系,进行模型训练,能够使训练所得的模型性能更优,在面向稀缺资源语言时,提升了句子嵌入的准确度,精进了平行句对的构建过程,实现了平行句对构建质量的提升。

    翻译模型训练方法和翻译方法及其装置

    公开(公告)号:CN114201975B

    公开(公告)日:2024-04-12

    申请号:CN202111250312.4

    申请日:2021-10-26

    Abstract: 本发明实施例提供一种翻译模型训练方法和翻译方法及其装置。其中,模型训练方法包括:分别将平行双语句对中的源语言语句和加噪的源语言语句输入翻译模型,得到第一预测目标语言语句和第二预测目标语言语句,并分别获取翻译模型的第一预测概率分布、第二预测概率分布和/或各隐藏层输出的第一特征向量、第二特征向量;基于第一预测目标语言语句与平行双语句对中的目标语言语句、第二预测目标语言语句与加噪的源语言语句对应的目标语言语句、第一特征向量与第二特征向量和/或第一预测概率分布与第二预测概率分布,确定翻译模型的当前训练损失,调整翻译模型的参数。本发明实施例可以提升翻译模型的鲁棒性,并且训练方法简单,模型训练稳定。

    翻译质量评估方法、装置、电子设备和存储介质

    公开(公告)号:CN113609875B

    公开(公告)日:2024-02-20

    申请号:CN202110901225.4

    申请日:2021-08-06

    Abstract: 本发明提供一种翻译质量评估方法、装置、电子设备和存储介质,其中方法包括:确定原文文本及其对应的待评估译文文本;对所述待评估译文文本进行句级别翻译质量评估,得到句级评估结果;所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度;对所述待评估译文文本进行词级别翻译质量评估,得到词级评估结果;所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度;基于所述句级评估结果和所述词级评估结果,确定所述待评估译文文本的质量评估结果。本发明提高了翻译质量评估的准确性。

    文本翻译方法、装置、电子设备和存储介质

    公开(公告)号:CN114254662B

    公开(公告)日:2024-11-08

    申请号:CN202111577763.9

    申请日:2021-12-22

    Abstract: 本发明提供一种文本翻译方法、装置、电子设备和存储介质,所述方法包括:确定源语言文本;基于机器翻译模型,对源语言文本进行类别识别,并基于识别所得的类别对应的翻译参数对源语言文本进行翻译,得到目标语言文本;机器翻译模型基于各类别的样本源语言文本以及样本源语言文本的样本目标语言文本训练得到。本发明提供的文本翻译方法、装置、电子设备和存储介质,采用识别所得的源语言文本类别对应的翻译参数对源语言文本进行翻译,不仅可以保证翻译精度,而且可以避免传统方法中基于大量翻译参数进行计算导致翻译效率较低的问题。

    一种领域数据获取方法、机器翻译方法及相关设备

    公开(公告)号:CN112417896B

    公开(公告)日:2024-02-02

    申请号:CN202011210710.9

    申请日:2020-11-03

    Abstract: 本申请提供了一种领域数据获取方法、机器翻译方法及相关设备,领域数据获取方法可确定出通用领域的训练语料集中训练语料对应的第一目标值,由于第一目标值能够表征对应的训练语料与指定领域的匹配程度,因此,基于通用领域的训练语料集中训练语料对应的第一目标值,能够从通用领域的训练语料集中筛选出指定领域的训练语料。在此基础上,本申请还提供了一种机器翻译方法,该方法可利用预先建立的领域翻译模型实现指定领域文本的翻译,由于领域翻译模型采用大量指定领域的训练语料对通用翻译模型进行微调得到,因此,其为能够适应于指定领域的翻译模型,利用该翻译模型对指定领域的文本进行翻译,能够获得比较准确的翻译结果。

    文本翻译方法、装置、电子设备和存储介质

    公开(公告)号:CN112686060B

    公开(公告)日:2024-04-30

    申请号:CN202011593186.8

    申请日:2020-12-29

    Abstract: 本发明提供一种文本翻译方法、装置、电子设备和存储介质,其中方法包括:确定源语言文本及其所属领域;将源语言文本输入至所属领域对应的领域机器翻译模型中,得到领域机器翻译模型输出的目标语言文本;领域机器翻译模型是基于对应领域下的样本源语言文本及其样本目标语言文本训练得到的;领域机器翻译模型用于基于源语言文本在所属领域和通用场景下的文本特征,进行文本翻译。本发明提供的方法、装置、电子设备和存储介质,结合特定领域和通用场景下的文本特征进行机器翻译,在提升特定领域文本的翻译效果的同时,保障通用场景文本的翻译效果不下降,从而避免由于领域分类错误导致的文本翻译效果大幅下降的问题。

    翻译方法、装置、设备及存储介质

    公开(公告)号:CN112668346B

    公开(公告)日:2024-04-30

    申请号:CN202011554126.5

    申请日:2020-12-24

    Abstract: 本申请公开了一种翻译方法、装置、设备及存储介质,本申请同时获取源语言文本、源语言文本的语音信息及源语言文本中每一文本子单元的结构信息,分别对源语言文本、语音信息及结构信息进行特征提取,得到源语言文本对应的文本特征、语音信息对应的语音特征以及源语言文本对应的结构特征,进而基于三种特征进行翻译,得到翻译后的目标语言文本。由此可见,本申请在翻译过程中,将文本、发音及结构作为同一源语言文本的不同认知层面来综合考虑,基于三种特征进行翻译,实现了资源信息的充分利用,同时,由于翻译时所参考的信息更加丰富,既能够提高翻译过程的鲁棒性,又可以提高翻译结果的质量。

Patent Agency Ranking