多语言翻译方法、装置、电子设备及存储介质

    公开(公告)号:CN114139556A

    公开(公告)日:2022-03-04

    申请号:CN202111271484.X

    申请日:2021-10-29

    Abstract: 本发明提供一种多语言翻译方法、装置、电子设备及存储介质,方法包括:获取训练数据和源语言的文本;其中,训练数据包括源语言到多种目标语言的双语平行句对和多语言平行句对;对源语言的文本进行编码,得到源语言的文本对应的特征向量;其中,特征向量与目标语言无关;基于特征向量和多种目标语言已生成的译文,确定多种目标语言的当前词的最终表示;基于语言独立的柱搜索算法及多种目标语言的当前词的最终表示,对多种目标语言的已生成最优候选译文进行扩展,得到多种目标语言的目标译文。本发明提供的方法,能够利用多种目标语言之间的互补信息,生成多种目标语言的目标译文,同时提升多种目标语言的翻译质量。

    多语言机器翻译模型训练方法、多语言翻译方法及装置

    公开(公告)号:CN114048760A

    公开(公告)日:2022-02-15

    申请号:CN202111138690.3

    申请日:2021-09-27

    Abstract: 本发明提供一种多语言机器翻译模型训练方法、多语言翻译方法及装置。训练方法包括:获取多语言翻译训练语料和多语言翻译验证语料;建立并初始化全参数共享的多语言翻译模型,利用多语言翻译训练语料和多语言翻译验证语料对多语言翻译模型进行训练,得到多语言机器翻译模型。在训练过程中模型自动判断每个共享的参数是否需要转变为语言相关的参数,复制需要转变的参数并将其分配给相关的语言,从而使得模型同时具有共享参数和语言相关参数。本发明用于在多语言机器翻译模型训练的过程中,自动判断参数是否需要共享以及需要被哪些语言对共享,而不依赖预先指定的共享或语言相关的模型组件。

    对话系统中口语理解的跨语言迁移方法

    公开(公告)号:CN109213851B

    公开(公告)日:2021-05-25

    申请号:CN201810724523.9

    申请日:2018-07-04

    Abstract: 本发明涉及语言处理领域,并提出了一种对话系统中口语理解的跨语言迁移方法,旨在解决在对话系统中口语理解的跨语言迁移中,因语义标签难以迁移和语言文化差异造成迁移结果质量不佳的技术问题。为此目的,本发明中的口语的跨语言迁移方法包括:获取待迁移的有标注口语理解数据;利用预先构建的口语理解迁移模型对所述带类别标记的待迁移数据进行迁移,得到带类别标记的第一迁移结果;对第一迁移结果进行文化迁移,得到目标语言的口语理解数据。基于上述步骤,本发明可以快速、准确的对口语理解数据进行跨语言迁移,改善了因为双语带类别标记数据不足而导致的有监督训练方法效果不佳的问题,降低了在模型训练中的数据收集和标注成本。

    基于多通道自编码器的多模态词汇表示方法与系统

    公开(公告)号:CN108536735B

    公开(公告)日:2020-12-15

    申请号:CN201810178559.1

    申请日:2018-03-05

    Abstract: 本发明涉及自然语言处理领域,具体涉及一种基于多通道自编码器的多模态词汇表示方法与系统,目的在于提高表示结果的准确性。本发明的词汇表示方法,先通过向量数据库查询待表示词汇的文本模态向量、视觉模态向量、音频模态向量;对于没有视觉模态和音频模态的词汇,利用训练好的映射模型去预测缺失的视觉向量以及听觉向量;再计算上述三种向量与对应模态权重的点积;最后将上述加权后的向量作为多通道自编码器模型的输入,对三种模态的信息进行融合,得到多模态的词汇表示向量。本发明利用不同模态间的相关性,融合不同模态的信息,并引入模态权重,有效提高了词汇表示的准确度。为了对不同模态进行更好的融合,还加入了联想词汇预测模块。

    基于弹性突触门的跨受试者神经解码系统、方法、装置

    公开(公告)号:CN111445542A

    公开(公告)日:2020-07-24

    申请号:CN202010246799.8

    申请日:2020-03-31

    Abstract: 本发明属于脑机接口技术领域,具体涉及一种基于弹性突触门的跨受试者神经解码系统、方法、装置,旨在解决在特定受试者上独立训练的神经解码在跨受试者解码时准确率较低的问题。本系统包括:预处理模块,配置为获取待解码的功能性核磁共振图像并进行预处理,得到预处理图像;解码模块,配置为通过基于弹性突触门的解码模型对所述预处理图像进行解码,得到在采集功能性核磁共振图像时受试者受到的刺激的向量表示;其中,基于弹性突触门的解码模型基于多层前向神经网络构建。本发明提高了基于功能性核磁共振成像的神经解码在跨受试者解码时的准确率。

    提高神经机器翻译准确度的方法、翻译方法及系统和设备

    公开(公告)号:CN107943795B

    公开(公告)日:2020-05-19

    申请号:CN201711123864.2

    申请日:2017-11-14

    Abstract: 本发明涉及机器翻译领域,具体涉及一种提高神经机器翻译准确度的方法、翻译方法及系统和设备,目的在于减少神经机器翻译系统的漏翻和重翻问题。本发明提出的提高神经机器翻译准确度的方法,通过将统计机器翻译中常用的预处理方法即预调序,引入到神经机器翻译中,实现了意想不到的技术效果——大大缓解了漏翻和重翻问题。另外,在神经机器翻译的注意力层加入位置向量以增强单调翻译,加入覆盖度向量,进一步缓解漏翻和重翻问题。相对于现有的神经机器翻译方法,本发明在提高翻译质量以及减少漏翻重翻方面均有显著改进。

    人机混合的应答方法、系统、装置

    公开(公告)号:CN109783704A

    公开(公告)日:2019-05-21

    申请号:CN201910005704.0

    申请日:2019-01-03

    Abstract: 本发明属于人机对话技术领域,具体涉及一种人机混合的应答方法、系统、装置,旨在为了解决现有人机应答方法无法实现在线学习的问题。本发明方法包括:对当前对话上下文Ct进行编码,得到第一表征向量E(Ct);基于对话任务下的候选回复语句,并进行编码后得到第二表征向量 基于第一表征向量E(Ct)、第二表征向量通过不确定性估计方法获取候选回复语句能够正确回复用户提问的置信度,置信度大于设定阈值则选择置信度对应的候选回复语句进行应答输出,否则获取通过人机交互设备录入的回复语句或选定的候选回复语句进行应答输出,并基于应答输出后得到的全部对话语句进行上述步骤中的参数优化。本发明保证了输出的应答语句具有足够的置信度,实现了对话模型的在线学习更新。

    图文摘要生成方法
    38.
    发明公开

    公开(公告)号:CN109508400A

    公开(公告)日:2019-03-22

    申请号:CN201811172666.X

    申请日:2018-10-09

    Abstract: 本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。

    一种汉语隐式篇章关系识别方法

    公开(公告)号:CN105955956B

    公开(公告)日:2019-01-22

    申请号:CN201610294189.9

    申请日:2016-05-05

    Abstract: 本发明公开了一种汉语隐式篇章关系识别方法,所述方法包括以下步骤:步骤1,对汉语隐式篇章关系论元对进行自动分词处理,得到自动分词结果;步骤2,在得到的汉语隐式篇章关系论元自动分词结果的基础上,学习汉语隐式篇章关系论元的特征表达;步骤3,基于得到的特征表达,通过基于最大间隔的神经网络模型对论元间的汉语隐式篇章关系进行建模;步骤4,利用得到的神经网络模型对汉语隐式篇章关系进行识别。本发明能够对汉语中的隐式篇章关系进行较准确地识别。经过在汉语篇章树库上的实验验证,相对于已有的英语隐式篇章关系识别方法,本发明方法在汉语隐式篇章关系识别上得到准确率更高的识别结果。

    中文篇章关系的分类方法及装置

    公开(公告)号:CN108959351A

    公开(公告)日:2018-12-07

    申请号:CN201810377825.3

    申请日:2018-04-25

    CPC classification number: G06F17/2785 G06N3/0481

    Abstract: 本发明属于自然语言处理技术领域,具体提供一种中文篇章关系的分类方法及装置。旨在解决传统管道系统方法中错误传递的问题。本发明的中文篇章关系的分类方法包括将中文篇章中的句子进行句对的分布式表示,得到第一句对分布式表示向量;计算记忆单元与第一句对分布式表示向量的相似度和权重,得到第一句对分布式表示向量的记忆信息;将第一句对分布式表示向量与记忆信息进行线性组合生成第二句对分布式表示向量;对第二句对分布式表示向量进行分类,得到中文篇章的关系分类结果。本发明的方法通过深度学习网络得到句子内部的语义和结构抽象特征,可以获得优越性能的篇章分类效果。

Patent Agency Ranking