-
公开(公告)号:CN107066451A
公开(公告)日:2017-08-18
申请号:CN201611170954.2
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
CPC classification number: G06F17/277 , G06F17/2775 , G06F17/2818 , G06F2216/03
Abstract: 本发明涉及一种人机交互翻译模型的更新方法及更新系统,所述更新方法包括:接收根据源语言句子进行人工翻译得到的目标语言句子;分别对目标语言句子及所述源语言句子进行分词处理,获得目标语言词组及源语言词组;根据所述目标语言词组及源语言词组获得双语词对齐信息;从所述双语词对齐信息中抽取短语翻译知识;根据短语翻译知识,逐对更新源语言短语对应的翻译模型随机森林。本发明人机交互翻译模型的更新方法可实时将人工翻译句子中的翻译知识更新至人机交互翻译模型中,改善后续机器翻译译文质量。
-
公开(公告)号:CN106874362A
公开(公告)日:2017-06-20
申请号:CN201611253245.0
申请日:2016-12-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种多语言自动文摘方法,包括以下步骤:步骤101,获取多个目标语言文档中的多个谓词论元结构;步骤102,对所述多个谓词论元结构中的每一个谓词论元进行重要性打分;步骤103,根据所述每一个谓词论元的重要性得分,生成目标语言摘要。本发明中,实现了获取指定语言的摘要,且在保证该摘要含有更多的重要信息的信息量时,提高可读性。
-
公开(公告)号:CN106649289A
公开(公告)日:2017-05-10
申请号:CN201611170300.X
申请日:2016-12-16
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
CPC classification number: G06F17/2827 , G06F17/2818 , G06F2216/03
Abstract: 本发明涉及一种同时识别双语术语与词对齐的实现方法及实现系统。所述实现方法包括:对一对源语言句子和目标语言句子进行分词,获得源语言词组和目标语言词组;对源语言词组和目标语言词组进行词对齐,获得对齐初始词;识别源语言句子和目标语言句子中的术语,获得初始单语术语;结合对齐初始词、初始单语术语,进行术语对齐,得到对齐初始术语;将对齐初始术语作为锚点,获得初级双语术语候选列表;对初级双语术语候选列表进行双语术语识别,获得次级双语术语候选列表;对次级双语术语候选列表进行二次双语术语识别和词对齐,获得终极双语术语和终极对齐词。本发明实现方法可实现自动术语识别和词对齐性能,并提高最终的机器翻译译文质量。
-
公开(公告)号:CN103020045B
公开(公告)日:2015-05-13
申请号:CN201210534093.7
申请日:2012-12-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。
-
公开(公告)号:CN101788978B
公开(公告)日:2011-12-07
申请号:CN200910244513.6
申请日:2009-12-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
-
公开(公告)号:CN101075230B
公开(公告)日:2011-11-16
申请号:CN200610011923.2
申请日:2006-05-18
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 本发明公开一种基于语块的中文机构名翻译方法及装置,直接从中文机构名的结构入手,进行语块的切分,语块的翻译过程和顺序调整过程同时采用同步上下文无关文法的推导来完成,最终实现中文机构名的翻译。这种将整个实体划分成更小粒度单位进行翻译的方法,符合中文机构名构成方式和翻译规律,对于结构易变的机构名翻译具有很大的优势。在翻译系统中,该装置相当于预处理部分,独立于用于句子翻译的机器翻译系统。这种“分而治之”的策略大大降低了整句翻译的难度,从而提高了翻译系统的整体性能。实验证明本发明在中文机构名翻译中的有效性。把它加入到机器翻译系统中,按BLEU打分标准,翻译系统的整体性能相对提高约13.3%。
-
公开(公告)号:CN101908042A
公开(公告)日:2010-12-08
申请号:CN201010248198.7
申请日:2010-08-09
Applicant: 中国科学院自动化研究所
IPC: G06F17/27
Abstract: 本发明是一种双语联合语义角色的标注方法,所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法,步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;步骤3:将所述初始候选论元进行合并,得到正式候选论元;步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。
-
公开(公告)号:CN101788978A
公开(公告)日:2010-07-28
申请号:CN200910244513.6
申请日:2009-12-30
Applicant: 中国科学院自动化研究所
IPC: G06F17/28
Abstract: 一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
-
公开(公告)号:CN100405362C
公开(公告)日:2008-07-23
申请号:CN200510109335.8
申请日:2005-10-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及自然语言处理领域,是一种新的汉语口语解析装置。本发明设计一种基于统计和规则相结合方法的口语解析装置,利用统计方法从训练语料中自动获取语义规则,生成语义分类树,然后利用语义分类树对待解析的汉语句子中与句子浅层语义密切相关的词语进行解析,获得每个词语对应的一种或多种语义及其概率,最后利用统计解析模型对语义分类树的解析结果进行选择和组合,从而获得整个句子的领域行为。实验结果表明,该方法具有较高的准确率和鲁棒性,适合应用在限定领域的汉语口语浅层语义解析。
-
公开(公告)号:CN1271550C
公开(公告)日:2006-08-23
申请号:CN03147553.1
申请日:2003-07-22
Applicant: 中国科学院自动化研究所
Abstract: 口语会话中句子边界识别方法,包括:获得口语语料库;对口语语料库进行替代处理;统计n-gram模型的n元同现频率;估计n元正向依存概率和n元逆向依存概率,其中,所述依存概率采用Modified Kneser-Ney Smoothing数据平滑算法估计;获得n元正、逆向依存概率数据库;设定Maximum Entropy模型的特征函数;循环计算特征函数参数,其中,采用Generalized Iterative Scaling算法计算特征函数参数;获得特征函数参数数据库;所述切分过程包括步骤:用基于正向n-gram模型的切分方法对文本进行切分;用基于逆向n-gram模型的切分方法对文本进行切分;抽取切分点的上下文,用Maximum Entropy模型的特征函数的参数对正、逆向切分结果进行加权综合。本发明不受语言的限制,通过更换训练语料库,可以运用于任何一种语言的句子边界切分。
-
-
-
-
-
-
-
-
-