-
公开(公告)号:CN111539229A
公开(公告)日:2020-08-14
申请号:CN201910054869.7
申请日:2019-01-21
Applicant: 波音公司 , 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/56 , G06F40/295 , G06F40/242
Abstract: 本发明涉及神经机器翻译模型训练方法、神经机器翻译方法及装置。该神经机器翻译方法包括:识别待翻译的源语句中的命名实体;用与命名实体的类别对应的标签替换所识别的命名实体,获得中间源语句;通过神经机器翻译模型翻译中间源语句,获得带有标签的中间目标语句;从预置的命名实体词典和/或命名实体库查找命名实体的译文;以及用查找到的译文替换中间目标语句中相应的标签,获得与待翻译的源语句对应的目标语句。本发明解决了在机器翻译的过程中,低频的命名实体被错翻译或漏翻译的问题。
-
公开(公告)号:CN106997387A
公开(公告)日:2017-08-01
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F16/345 , G06K9/00744 , G06K9/6201
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
公开(公告)号:CN101482861A
公开(公告)日:2009-07-15
申请号:CN200810055783.8
申请日:2008-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种汉英词语自动对齐方法,首先对原始汉、英双语句提取划分语块的特征信息划分,生成多层不同粒度的语块划分锚点信息,对双语词对之间进行局部定位,生成词对齐文件。本发明解决了传统方法规划路径多、复杂度高,难生成好的对齐结果,影响对齐效率的问题,本发明根据相关特征将汉英双语句子分割,完成不同粒度下的单元对齐,在各种粒度下将词对齐操作限制在相应的单元范围内。实验表明,该方法获得的词语对齐比GIZA++工具包词对齐错误率下降了28%,在该词对齐基础上的翻译结果BLEU打分比原始词对齐提高了20%,而且克服了GIZA++不能对超过100个单词的长句子进行很好的词语对齐的弊端。
-
公开(公告)号:CN117149987B
公开(公告)日:2024-02-13
申请号:CN202311426764.2
申请日:2023-10-31
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F18/22 , G06F18/214 , G06F40/35 , G06F40/211 , G06F40/242
Abstract: 本发明属于自然语言处理技术领域,提供了一种多语言对话状态追踪模型的训练方法及装置,该多语言对话状态追踪模型的训练方法包括:获取源语言数据;基于多语词典对多个对话上下文信息进行语码转换,得到语码转换对话上下文信息;以语码转换对话上下文信息为训练样本,以第一函数为训练损失函数,对多语言训练模型进行多任务联合训练,得到多语言对话状态追踪模型。本发明所述方法通过设计多种微调任务,能够构建有效的多语言生成式对话状态追踪模型,使得模型具备对不同语言对话上下文的理解能力,提高了多语言对话状态追踪性能。
-
公开(公告)号:CN117034965A
公开(公告)日:2023-11-10
申请号:CN202310996132.3
申请日:2023-08-08
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/289 , G06V30/41 , G06N3/045
Abstract: 本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置,方法包括:确定源语言图像;将源语言图像输入至图像文本翻译模型,得到图像文本翻译模型输出的源语言图像对应的目标语言文本;其中,图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异,以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时,样本图像特征向量能够补充提供相应的视觉信息,对文本识别错误进行校正,以增强图像文本翻译,准确得到样本预测目标语言文本,进而提高图像文本翻译模型的图像文本翻译精度。
-
公开(公告)号:CN113239151B
公开(公告)日:2023-06-27
申请号:CN202110540820.X
申请日:2021-05-18
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F40/211 , G06F40/30 , G06F18/214
Abstract: 本发明属于自然语言处理技术领域,具体涉及了一种基于BART模型的口语理解数据增强方法、系统及设备,旨在解决的问题。本发明包括:将训练数据进行变换,去除其语义槽值信息或上下文表达方式的信息;利用预训练语言模型BART在变换的数据上进行调优,获得两种调优模型;分别使用两种调优模型和少量训练数据进行增强数据的生成;对增强数据进行过滤处理,获得最终的增强训练数据。本发明在只利用少量训练数据的前提下,可以生成具有不同语义槽值和上下文的带标签的增强训练数据,有效地提高了口语理解模型在少量数据下的语义槽填充的性能。
-
公开(公告)号:CN115879480A
公开(公告)日:2023-03-31
申请号:CN202211406961.3
申请日:2022-11-10
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06F40/279 , G06F40/30
Abstract: 本发明提供一种语义约束机器翻译方法、装置、电子设备及存储介质,其中语义约束机器翻译方法,包括:获取源端语言篇章文本在目标端语言中的目标约束词序列;将源端语言篇章文本和目标约束词序列输入至预设机器翻译模型中进行翻译,输出源端语言篇章文本的机器翻译结果;其中,预设机器翻译模型包括对源端语言篇章文本和目标约束词序列对应的目标词向量矩阵先进行多层编解码、后进行上下文‑约束词解码,并基于顶层解码器输出的结果和上下文‑约束词解码的结果确定机器翻译结果。使用本发明通过充分利用约束词和上下文之间的语义信息的交互关系的方式,能够大幅提高机器翻译模型性能和机器翻译模型的整体翻译质量。
-
公开(公告)号:CN113919367A
公开(公告)日:2022-01-11
申请号:CN202111057775.9
申请日:2021-09-09
Applicant: 中国科学院自动化研究所
IPC: G06F40/35 , G06F16/335 , G06F16/33
Abstract: 本发明提供一种摘要获取方法、装置、设备、介质及产品,方法包括:获取对话的待处理对话文本;基于所述待处理对话文本,确定至少两个用户角色;在所述待处理对话文本中,添加所述用户角色对应的角色标注,得到目标对话文本;提取所述目标对话文本对应的主题信息;基于所述主题信息和所述目标对话文本,得到至少一个问答对;基于所述至少一个问答对,得到目标摘要。本发明用以解决现有技术中无法精确提取对话文本的摘要信息的缺陷。
-
公开(公告)号:CN109597886B
公开(公告)日:2021-07-06
申请号:CN201811238086.6
申请日:2018-10-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/34
Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。
-
公开(公告)号:CN112131372B
公开(公告)日:2021-02-02
申请号:CN202011337142.9
申请日:2020-11-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F40/295 , G16H80/00 , G06N3/08
Abstract: 本发明属于人机对话领域,具体涉及一种基于知识驱动的对话策略网络优化方法、系统、装置,旨在解决医疗领域现有对话系统优化过程中训练数据利用率低的问题。本发明方法应用于对话系统的训练,包括:基于选定领域对话样本的输入特征,利用基于编码器的协同过滤的方法,对自编码器进行优化;所述自编码器中的编码器用于将输入特征映射到低维空间;基于包含额外奖励值的损失函数,对对话策略网络进行优化;所述额外奖励值与行为动作空间中状态‑动作对出现的频率呈反比例关系。本发明可在有限的训练数据的情况下充分地探索状态动作空间,提高数据利用率。
-
-
-
-
-
-
-
-
-