-
公开(公告)号:CN106649289A
公开(公告)日:2017-05-10
申请号:CN201611170300.X
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
CPC classification number: G06F17/2827 , G06F17/2818 , G06F2216/03
Abstract: 本发明涉及一种同时识别双语术语与词对齐的实现方法及实现系统。所述实现方法包括:对一对源语言句子和目标语言句子进行分词,获得源语言词组和目标语言词组;对源语言词组和目标语言词组进行词对齐,获得对齐初始词;识别源语言句子和目标语言句子中的术语,获得初始单语术语;结合对齐初始词、初始单语术语,进行术语对齐,得到对齐初始术语;将对齐初始术语作为锚点,获得初级双语术语候选列表;对初级双语术语候选列表进行双语术语识别,获得次级双语术语候选列表;对次级双语术语候选列表进行二次双语术语识别和词对齐,获得终极双语术语和终极对齐词。本发明实现方法可实现自动术语识别和词对齐性能,并提高最终的机器翻译译文质量。
-
公开(公告)号:CN103020045B
公开(公告)日:2015-05-13
申请号:CN201210534093.7
申请日:2012-12-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。
-
公开(公告)号:CN115081430A
公开(公告)日:2022-09-20
申请号:CN202210576165.8
申请日:2022-05-24
Applicant: 中国科学院自动化研究所
IPC: G06F40/232 , G06N20/00
Abstract: 本发明提供一种中文拼写检错纠错方法、装置、电子设备及存储介质,属于自然语言处理技术领域,该方法包括:将汉字输入序列输入至对比学习模型,得到对比学习模型输出的汉字输入序列中各个汉字对应的相似字向量;基于相似字向量,检测汉字输入序列中的错误汉字,获得错误汉字的位置和类型;对汉字输入序列进行编码,得到汉字输入序列对应的编码向量;基于相似字向量、错误汉字的位置和类型,以及编码向量,纠正汉字输入序列中的错误汉字,获得最优纠正文本。通过各个汉字的字音相似关系和字形相似关系,实现了汉字输入序列中错误汉字的检错和纠错,提升了复杂汉字相似错误的检测与纠正的准确率,提升了中文拼写纠错的纠正质量。
-
公开(公告)号:CN109597886B
公开(公告)日:2021-07-06
申请号:CN201811238086.6
申请日:2018-10-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/34
Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。
-
公开(公告)号:CN109508400B
公开(公告)日:2020-08-28
申请号:CN201811172666.X
申请日:2018-10-09
Applicant: 中国科学院自动化研究所
IPC: G06F16/583 , G06F16/36 , G06K9/62 , G06N3/04
Abstract: 本发明属于自然语言技术领域,具体提供了一种图文摘要生成方法,旨在解决现有技术图片和文本不对齐导致摘要信息不准确的问题。为此目的,本发明提供了一种图文摘要生成方法,包括获取多媒体信息中文本和图片对应的特征向量;根据文本和图片对应的特征向量获取多模态信息向量;基于预先构建的摘要生成模型并根据多模态信息向量获取多媒体信息的文本摘要;根据图片对应的特征向量获取图片对应的覆盖度向量;基于摘要生成模型并根据图片对应的覆盖度向量获取多媒体信息的图片摘要;将文本摘要和图片摘要结合作为多媒体信息的图文摘要。基于上述步骤,本发明提供的方法可以得到更准确表现多媒体信息内容的图文摘要。
-
公开(公告)号:CN109918646B
公开(公告)日:2020-08-11
申请号:CN201910089352.1
申请日:2019-01-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种篇章因果关系判断方法、系统、装置,旨在为了解决机器人交互中的篇章因果关系判断问题。本发明方法包括:基于语言激活模型,对输入的目标文本对中每条目标文本分别获取匹配度最高的注册事件;基于每条目标文本对应的注册事件,依据所存储的各场景中注册事件序列,计算两个注册事件的相关性;基于所述目标文本对、两个注册事件的相关性,计算所述目标文本对的因果关系。本发明可以对输入的目标文本对进行因果关系的准确判断。
-
公开(公告)号:CN108763211B
公开(公告)日:2020-07-31
申请号:CN201810499465.4
申请日:2018-05-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
-
公开(公告)号:CN111401080A
公开(公告)日:2020-07-10
申请号:CN201811533465.8
申请日:2018-12-14
Applicant: 波音公司 , 中国科学院自动化研究所
Abstract: 本申请公开了神经机器翻译方法以及神经机器翻译装置。该神经机器翻译方法,包括:获取待翻译的源语句以及作为源语句的候选译文的目标语句,以形成原始训练语料,计算源语句中包含的每个单词的翻译熵;判断每个单词的翻译熵是否大于预定阈值;根据判断结果,将翻译熵大于预定阈值的单词确定为易漏翻的单词;将易漏翻的单词的候选译文替换为预先设定的字符,以形成新目标语句;根据源语句与新目标语句形成新训练语料;基于原始训练语料和新训练语料来对神经机器翻译模型进行参数训练,以及利用经参数训练的神经机器翻译模型执行机器翻译。
-
公开(公告)号:CN106844352B
公开(公告)日:2019-11-08
申请号:CN201611209226.8
申请日:2016-12-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于神经机器翻译系统的单词预测方法及系统,所述单词预测方法包括:对平行语料进行训练,从训练结果中抽取,获得短语翻译表;对任意平行句对中的源语言句子进行匹配搜索,确定源语言句子中包含的全部源语言短语;从短语翻译表中查找各源语言短语分别对应的目标短语翻译候选集;根据目标短语翻译候选集及神经机器翻译系统翻译所得的部分译文,获得需要鼓励的目标单词集;根据基于神经机器翻译系统所得的注意力概率和目标短语翻译候选集,确定目标单词集中各目标单词的鼓励值;根据各目标单词的鼓励值,获得各目标单词的预测概率。通过引入短语翻译表获得目标单词的鼓励值,并添加到神经翻译模型中,从而可提高目标单词的预测概率。
-
公开(公告)号:CN106997387B
公开(公告)日:2019-08-09
申请号:CN201710195587.X
申请日:2017-03-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于文本‑图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。通过训练文本‑图像匹配模型,将图像或视频中的信息利用文本‑图像匹配模型找到对应语义的文本,实现了同时处理文本、图像和视频信息进行文本摘要,使得输出的自动文摘相较传统的纯文本自动文摘结果具有更好的全面性和准确度。
-
-
-
-
-
-
-
-
-