翻译方法、装置、设备及介质

    公开(公告)号:CN113361287B

    公开(公告)日:2024-10-25

    申请号:CN202110681347.7

    申请日:2021-06-18

    Inventor: 李响

    Abstract: 本公开是关于一种翻译方法、装置、设备及介质,翻译方法应用于翻译设备,翻译方法包括:识别待翻译文本中的第一专有名词,第一专有名词为汉语拼音格式;根据第一专有名词,查询与第一专有名词对应的多个第二专有名词,以及每个第二专有名词关联的属性信息,第二专有名词为汉字格式;基于多个第二专有名词,创建与每个第二专有名词对应的信息组,每个信息组包括第一专有名词、第二专有名词和与第二专有名词关联的属性信息;基于待翻译文本和多个信息组进行语义匹配,选择多个信息组中语义匹配度最高的信息组所对应的第二专有名词作为第一专有名词的目标译文,有效提高了专有名词为汉语拼音格式的翻译准确性,译文质量更佳。

    使用合成语音作为监督信息的端到端语音翻译方法

    公开(公告)号:CN117252213B

    公开(公告)日:2024-05-31

    申请号:CN202310824069.5

    申请日:2023-07-06

    Applicant: 天津大学

    Inventor: 熊德意 薛征山

    Abstract: 本发明公开了一种使用合成语音作为监督信息的端到端语音翻译方法,首先对待翻译的三元组原始语音翻译数据进行预处理,得到包含合成语音的四元组语音翻译数据;然后构建语音翻译模型,利用四元组的语音翻译数据作为样本训练该语音翻译模型,其中,设计了对齐适配器模块,用于将合成语音的语义表示作为监督信息,使原始语音的语义表示向合成语音的语义表示靠近;同时,在共享解码器端,将合成语音的logits分布蒸馏到原始语音的logits分布上。最后利用训练好的语音翻译模型,对待翻译的输入语音即可进行翻译,输出目标翻译文本。本发明使用标准的合成语音作为监督信息,融入到语音翻译模型训练框架中,在训练过程中,监督指导端到端的原始语音翻译的训练,从而提升翻译效果。

    一种基于transformer多种注意力机制的权重分配方法

    公开(公告)号:CN110688860B

    公开(公告)日:2024-02-06

    申请号:CN201910924914.X

    申请日:2019-09-27

    Abstract: 本发明公开了一种基于transformer多种注意力机制的权重分配方法;包括:注意力机制的输入是目标语言的目标语言和源语言的词向量,输出是一个对齐张量。使用多个注意力机制函数可以输出多个对齐张量输出,并且由于计算过程中有随机参数的变化,所以每个输出是不同的。在此将所有的注意力机制模型都投入运算中,并将多种注意力机制输出做正则化计算,来逼近最佳输出。这种正则化计算方法确定了所得的值不会偏离最优值太远,也保存了各个注意力模型的最优性,若是一个注意力模型的实验效果极好,则加大该模型的权重函数来加大该模型对最终输出的影响力,从而提高翻译效果。

    使用插补的序列建模
    5.
    发明公开

    公开(公告)号:CN115053235A

    公开(公告)日:2022-09-13

    申请号:CN202180012954.2

    申请日:2021-02-08

    Abstract: 一种用于序列建模的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。这些方法之一包括:接收具有多个输入位置的输入序列;确定连续输入位置的多个块;使用神经网络处理输入序列以生成潜在对准,在多个输入时间步中的每个输入时间步包括:从先前输入时间步接收部分潜在对准;选择每个块中的输入位置,其中在每个块中的部分潜在对准的所选择的输入位置处的语言符号是掩码语言符号;以及使用神经网络来处理部分潜在对准和输入序列以生成新潜在对准,其中新潜在对准在每个块中的所选择的输入位置处包括输出语言符号或空白语言符号;以及使用潜在对准来生成输出序列。

    一种数据处理方法、装置、计算机设备及存储介质

    公开(公告)号:CN114528852A

    公开(公告)日:2022-05-24

    申请号:CN202210140138.6

    申请日:2022-02-15

    Abstract: 本申请实施例公开了一种数据处理方法、装置、计算机设备以及存储介质。其中方法包括:获取样本语料集,样本语料集包括目标样本语料对,目标样本语料对包括第一样本语句和第二样本语句,第二样本语句是第一样本语句翻译后的语句;根据第一样本语句和第二样本语句中j‑1个数据对第二样本语句中第j个数据进行概率预测处理,得到第j个数据的第一预测概率;根据前j‑1个数据对第二样本语句的第j个数据进行概率预测处理,得到第j个数据的第二预测概率;根据第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;获取输入语句,将输入语句输入目标模型,生成翻译后的输出语句。以使得文本翻译更准确,提高数据处理准确性。

    一种文本数据处理方法、装置、设备以及介质

    公开(公告)号:CN114358025A

    公开(公告)日:2022-04-15

    申请号:CN202110897046.8

    申请日:2021-08-05

    Abstract: 本申请实施例提供了一种文本数据处理方法、装置、设备以及介质,该方法涉及人工智能领域,方法包括:获取第一文本对和第二文本对,从第一文本对中获取第一子文本,从第二文本对中获取第二子文本;确定第一子文本和第二子文本之间的编辑距离,若编辑距离满足相似性条件,则生成与第一子文本的语义信息相关联且属于第三语言类型的第一目标子文本,生成与第二子文本的语义信息相关联且属于第二语言类型的第二目标子文本;根据第一文本对、第二文本对、第一目标子文本和第二目标子文本,生成文本样本对。采用本申请,可以生成不同语言类型所组成的文本样本对,进而可以在保证语料库的质量的同时,提高语料库的语料数量。

    基于翻译的专业垂直领域文本同义改写方法

    公开(公告)号:CN112560509A

    公开(公告)日:2021-03-26

    申请号:CN202011449188.X

    申请日:2020-12-09

    Inventor: 王征 罗学优

    Abstract: 本发明公开了一种基于翻译的专业垂直领域文本同义改写方法,包括以下步骤:输入待改写文本;确定垂直领域专有名词,并选择规避词汇;将待改写文本的中文翻译成英文,并加入专有名词;将英文翻译成中文,使翻译结果中不出现规避词汇;输出改写结果。本发明在输入端提供垂直领域的专有名词信息,优化了文本改写过程中专有名词的保持能力,使得垂直领域的相关文本改写结果质量更佳。在生成文本时,采取特定的解码策略,使得本发明能提供不同改写幅度的结果,满足了不同的场景下的改写幅度需求,提高了灵活性。同时,本发明所采用的解码策略也能够提供具有随机性的多种改写结果,具备更强的多样性。

    一种机器翻译自动后编辑方法及装置

    公开(公告)号:CN112287693A

    公开(公告)日:2021-01-29

    申请号:CN202011209517.3

    申请日:2020-11-03

    Abstract: 本发明公开了一种机器翻译自动后编辑方法及装置,借助自主检查单元调用任一其他翻译软件,对初处理信息进行反向翻译,反向翻译即为将该初处理信息重新翻译回初始的语言,得到反向译文;将源文件与反向译文进行比对,得到反向译文与源文件不同的单字个数,从而得到错译比Yc;之后获取到反向译文中断句错误的地方,即为断句的逗号出现错误的地方,得到断句错误处,得到断错比Dc;根据两个因素求取错评值C对应产生不同的评价信号,根据评价信号和其他因素将对应的Xq段内容信息随机发送至目标人员;目标人员对其翻译内容进行更正后得到正确译文,同时将错误处于正确译文以及对应应用环境记录成纠正信息。

    一种文本翻译模型的训练方法、文本翻译的方法及装置

    公开(公告)号:CN112257472A

    公开(公告)日:2021-01-22

    申请号:CN202011271673.2

    申请日:2020-11-13

    Inventor: 王龙跃 刘宏烨

    Abstract: 本申请公开了一种基于人工智能技术实现的文本翻译模型训练方法和文本翻译方法,具体涉及自然语言处理领域以及机器学习领域,文本翻译模型训练方法包括:获取第一文本以及第二文本;若第一文本以及第二文本满足文本对齐条件,则获取第一待训练平行文本;基于第一待训练平行文本所包括的第一句子,通过文本翻译模型获取第一翻译文本;根据第一翻译文本以及第二句子,对文本翻译模型进行训练。本申请实施例还提供了一种相关装置,本申请能够将自动抓取到的文本进行对齐处理,从而生成用于模型训练的平行语料,由此实现模型的自我训练。

Patent Agency Ranking