-
公开(公告)号:CN111401080A
公开(公告)日:2020-07-10
申请号:CN201811533465.8
申请日:2018-12-14
Applicant: 波音公司 , 中国科学院自动化研究所
Abstract: 本申请公开了神经机器翻译方法以及神经机器翻译装置。该神经机器翻译方法,包括:获取待翻译的源语句以及作为源语句的候选译文的目标语句,以形成原始训练语料,计算源语句中包含的每个单词的翻译熵;判断每个单词的翻译熵是否大于预定阈值;根据判断结果,将翻译熵大于预定阈值的单词确定为易漏翻的单词;将易漏翻的单词的候选译文替换为预先设定的字符,以形成新目标语句;根据源语句与新目标语句形成新训练语料;基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练,以及利用经参数训练的神经机器翻译模型执行机器翻译。
-
公开(公告)号:CN106844352B
公开(公告)日:2019-11-08
申请号:CN201611209226.8
申请日:2016-12-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。
-
公开(公告)号:CN106997387B
公开(公告)日:2019-08-09
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
公开(公告)号:CN109213851A
公开(公告)日:2019-01-15
申请号:CN201810724523.9
申请日:2018-07-04
Applicant: 中国科学院自动化研究所 , 出门问问信息科技有限公司
IPC: G06F16/332 , G06F17/28 , G06F17/27
Abstract: 本发明涉及语言处理领域,并提出了一种对话系统中口语理解的跨语言迁移方法,旨在解决在对话系统中口语理解的跨语言迁移中,因语义标签难以迁移和语言文化差异造成迁移结果质量不佳的技术问题。为此目的,本发明中的口语的跨语言迁移方法包括:获取待迁移的有标注口语理解数据;利用预先构建的口语理解迁移模型对所述带类别标记的待迁移数据进行迁移,得到带类别标记的第一迁移结果;对第一迁移结果进行文化迁移,得到目标语言的口语理解数据。基于上述步骤,本发明可以快速、准确的对口语理解数据进行跨语言迁移,改善了因为双语带类别标记数据不足而导致的有监督训练方法效果不佳的问题,降低了在模型训练中的数据收集和标注成本。
-
公开(公告)号:CN108763211A
公开(公告)日:2018-11-06
申请号:CN201810499465.4
申请日:2018-05-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
-
公开(公告)号:CN107015966A
公开(公告)日:2017-08-04
申请号:CN201710195609.2
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/271 , G06F17/2785 , G10L15/26
Abstract: 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。
-
公开(公告)号:CN106021224A
公开(公告)日:2016-10-12
申请号:CN201610317745.X
申请日:2016-05-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/2785 , G06F17/289
Abstract: 本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。
-
公开(公告)号:CN102117270B
公开(公告)日:2016-01-20
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
公开(公告)号:CN102117270A
公开(公告)日:2011-07-06
申请号:CN201110077282.1
申请日:2011-03-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种基于模糊树到精确树的统计机器翻译方法,本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法,步骤1:对双语句对进行分词、自动词对齐和句法分析;步骤2:从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3:对抽取出的翻译规则进行概率估计,并训练目标端的语言模型;步骤4:设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则,并估计其匹配概率;步骤5:设计翻译模型的优化目标,并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。
-
公开(公告)号:CN119358634A
公开(公告)日:2025-01-24
申请号:CN202411143033.1
申请日:2024-08-20
Applicant: 中国科学院自动化研究所
IPC: G06N3/096 , G06N3/084 , G06F16/332 , G06F16/35
Abstract: 本发明提供一种基于排序约束的文本生成模型的迁移训练方法和装置,应用于自然语言处理技术领域。该方法包括:获取训练数据;将所述训练数据输入第一文本生成模型得到所述第一文本生成模型对答复文本的每个预测位置上的第一预测分布输出;将所述训练数据输入第二文本生成模型得到所述第二文本生成模型对答复文本的每个预测位置上的第二预测分布输出;计算所述第一预测分布输出和所述第二预测分布输出之间的排序损失和蒸馏损失;将所述排序损失和所述蒸馏损失融合得到混合损失,并将所有预测位置上的混合损失的均值作为总损失;基于所述总损失进行反向传播,以更新所述第二文本生成模型的模型参数。
-
-
-
-
-
-
-
-
-