-
公开(公告)号:CN110413752A
公开(公告)日:2019-11-05
申请号:CN201910661448.0
申请日:2019-07-22
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/35 , G06K9/62
Abstract: 本发明属于人机对话技术领域,具体涉及一种基于对话逻辑的多轮口语理解方法、系统、装置,旨在解决现有多轮口语理解方法对历史对话数据利用率低的问题。本系统方法包括获取当前对话数据、历史对话数据;通过双向门控循环神经网络,分别将当前对话数据和历史对话数据编码成输入向量和记忆向量;根据所述输入向量、所述记忆向量,通过基于注意力机制的记忆检索方法生成语境知识向量;基于所述语境知识向量和所述当前对话数据,通过多轮口语理解模型获取当前对话数据的意图分类信息和语义槽填充信息。本发明可以在多轮口语理解中对历史对话数据高效的利用,提升语言理解在多轮场景下的性能。
-
公开(公告)号:CN109597886A
公开(公告)日:2019-04-09
申请号:CN201811238086.6
申请日:2018-10-23
Applicant: 中国科学院自动化研究所
IPC: G06F16/34
Abstract: 本发明属于自然语言领域,具体提供了一种抽取生成混合型摘要生成方法,旨在解决现有的抽取式自动摘要方法和生成式自动摘要方法存在的问题。本发明提供了一种抽取生成混合型摘要生成方法,包括识别文档中的实体和数字并且利用预设的标签替换文档中的实体和数字;利用抽取式文档摘要抽取方法从进行标签替换后的文档中抽取多个第一关键句;分别对多个第一关键句进行压缩得到每个第一关键句对应的第二关键句;通过第一关键句的长度与预设的长度阈值的比较结果,可以选择性地将第一关键句或者第二关键句作为第一待合成关键句;根据所有第一待合成关键句生成文档的摘要。本发明提供的方法既可以生成符合文档语义表达的摘要,还可以保证可读性。
-
公开(公告)号:CN109213860A
公开(公告)日:2019-01-15
申请号:CN201810833449.4
申请日:2018-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于文本分类技术领域,具体提供了一种融合用户信息的文本情感分类方法及装置。旨在解决现有技术不考虑不同用户的差异性和忽略用户信息导致对评论的文本情感分类不准确的问题。为此目的,本发明提供了一种融合用户信息的文本情感分类方法,包括基于预先获取的评论信息和相应的用户信息得到评论向量;基于预先构建的评论文本情感分类模型并根据预设的评价对象,对评论向量进行情感预测,得到每条评论信息对应的情感类别;其中,评论文本情感分类模型是基于预设的语料集并利用机器学习算法所构建的神经网络模型。基于上述步骤,本发明提供的方法可以准确地获取每条评论信息对应的情感类别。本发明的装置同样具有上述有益效果。
-
公开(公告)号:CN107066451A
公开(公告)日:2017-08-18
申请号:CN201611170954.2
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/277 , G06F17/2775 , G06F17/2818 , G06F2216/03
Abstract: 本发明涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。
-
公开(公告)号:CN106649289A
公开(公告)日:2017-05-10
申请号:CN201611170300.X
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
CPC classification number: G06F17/2827 , G06F17/2818 , G06F2216/03
Abstract: 本发明涉及一种同时识别双语术语与词对齐的实现方法及实现系统。所述实现方法包括:对一对源语言句子和目标语言句子进行分词,获得源语言词组和目标语言词组;对源语言词组和目标语言词组进行词对齐,获得对齐初始词;识别源语言句子和目标语言句子中的术语,获得初始单语术语;结合对齐初始词、初始单语术语,进行术语对齐,得到对齐初始术语;将对齐初始术语作为锚点,获得初级双语术语候选列表;对初级双语术语候选列表进行双语术语识别,获得次级双语术语候选列表;对次级双语术语候选列表进行二次双语术语识别和词对齐,获得终极双语术语和终极对齐词。本发明实现方法可实现自动术语识别和词对齐性能,并提高最终的机器翻译译文质量。
-
公开(公告)号:CN103020045B
公开(公告)日:2015-05-13
申请号:CN201210534093.7
申请日:2012-12-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。
-
公开(公告)号:CN101788978B
公开(公告)日:2011-12-07
申请号:CN200910244513.6
申请日:2009-12-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
-
公开(公告)号:CN101788978A
公开(公告)日:2010-07-28
申请号:CN200910244513.6
申请日:2009-12-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
-
公开(公告)号:CN119443120A
公开(公告)日:2025-02-14
申请号:CN202411499066.X
申请日:2024-10-25
Applicant: 中国科学院自动化研究所
IPC: G06F40/58 , G06N3/0499 , G06N5/04
Abstract: 公开了一种翻译方法及装置、计算机可读存储介质及计算机程序产品,所述方法包括:将源文档图像输入图像编码器,得到图像编码特征,其中,源文档图像包括源语言文本部分和插图部分;将源文档图像输入语义对齐编码器,得到单模态语义编码特征;将图像编码特征和单模态语义编码特征输入解码器,得到源文档图像的翻译结果,其中,翻译结果包括目标语言文本部分和插图部分;其中,翻译模型利用多模态大模型的输出进行训练。
-
公开(公告)号:CN118447523A
公开(公告)日:2024-08-06
申请号:CN202410446560.3
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
IPC: G06V30/414 , G06V30/416 , G06V30/18 , G06V30/19 , G06F40/58
Abstract: 本发明提供一种基于特征传导的端到端文档图像翻译方法及装置,该方法包括:获取待翻译文档图像;提取待翻译文档图像的字符识别结果的几何联合特征,几何联合特征包括几何版面特征、文本特征;基于几何联合特征,得到待翻译文档图像的逻辑版面特征;将逻辑版面特征,和几何联合特征中的文本特征进行特征融合,得到待翻译文档图像的翻译导向特征;基于翻译导向特征,得到文档图像翻译结果。本发明提供的方法,将几何版面以及逻辑版面信息显式地进行建模,并将它们与文本特征进行融合,提升了对复杂版面的文档图像的翻译能力。同时,提供了基于特征传导的统一联合框架,增强了版面模块与翻译模块的协同优化。
-
-
-
-
-
-
-
-
-