-
公开(公告)号:CN103577398A
公开(公告)日:2014-02-12
申请号:CN201310487641.X
申请日:2013-10-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 本发明涉及一种基于谓词论元结构的层次机器翻译方法及系统,包括训练和翻译过程,将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征,并因此降低了机器翻译生成毫无意义译文的概率。
-
公开(公告)号:CN100527125C
公开(公告)日:2009-08-12
申请号:CN200710099724.6
申请日:2007-05-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种统计机器翻译的在线翻译模型选择方法,包括训练和翻译两个阶段,训练阶段包括:收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中;为子语料库训练候选翻译模型;为子语料库建立索引,得到语料库索引文件;翻译阶段包括:输入待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的句子;根据检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;根据最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。本发明很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题,能够有效地提高统计机器翻译系统的翻译质量。
-
公开(公告)号:CN101206643A
公开(公告)日:2008-06-25
申请号:CN200610165532.6
申请日:2006-12-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种融合了句型模板和统计机器翻译技术的翻译方法,该方法包括:A、配置句型模板,建立句型模板库;B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤D;否则,执行步骤C;C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。利用本发明,解决了统计机器翻译系统不能很好的翻译具有固定句型结构句子的问题,使对具有固定句型结构的句子的翻译更加流畅。
-
公开(公告)号:CN102693309A
公开(公告)日:2012-09-26
申请号:CN201210166934.3
申请日:2012-05-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了计算机辅助翻译的方法及系统,在机器翻译结果的基础上,利用机器翻译中的中间信息、用户记忆库、词典等其他方面的辅助翻译信息来修改和完善机器自动翻译的结果。其中,采用基于AC自动机的候选短语查询方法,在线性复杂度之内解决了候选短语的查询问题,大大提高了辅助翻译的效率;采用基于卡尔曼滤波的候选短语排序方法解决了不同集合的短语之间的排序问题,通过用户翻译历史记录的分析,不断优化各候选短语集合的权重,从而提高候选短语推荐的精准度。
-
公开(公告)号:CN102681985A
公开(公告)日:2012-09-19
申请号:CN201210152487.6
申请日:2012-05-16
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 一种面向形态丰富语言的翻译方法和系统,所述方法包括:步骤1,对形态丰富语言进行形态分析,获得词干和词缀信息;步骤2,在抽取翻译规则时,以词干作为原子翻译单元,并保留相应的词缀分布信息;步骤3,在翻译时,对于待翻译的片段,获取其词干、词缀分布;词干序列用来查询规则表,词缀分布信息和规则候选的词缀分布计算相似度,表征两者的相似程度,指导解码,所述词干序列是由多个词干组成的序列。
-
公开(公告)号:CN102193914A
公开(公告)日:2011-09-21
申请号:CN201110139182.7
申请日:2011-05-26
Applicant: 中国科学院计算技术研究所
IPC: G06F17/28
Abstract: 本发明提供一种计算机辅助翻译的方法及系统,在自动翻译结果的基础上,利用机器翻译解码器的中间结果、记忆库、词典等其他方面的信息来修改和完善机器自动翻译的结果,并为用户编辑和修改翻译结果提供了更灵活的交互方式。这样使得机器翻译和人工翻译得到了结合,提升用户体验,并最终提高了翻译的质量和效率。
-
公开(公告)号:CN100543727C
公开(公告)日:2009-09-23
申请号:CN200610165532.6
申请日:2006-12-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种融合了句型模板和统计机器翻译技术的翻译方法,该方法包括:A、配置句型模板,建立句型模板库;B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤D;否则,执行步骤C;C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。利用本发明,解决了统计机器翻译系统不能很好的翻译具有固定句型结构句子的问题,使对具有固定句型结构的句子的翻译更加流畅。
-
公开(公告)号:CN101295295A
公开(公告)日:2008-10-29
申请号:CN200810114950.1
申请日:2008-06-13
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明提供一种基于线性模型的汉语词法分析方法,包括如下步骤:1)输入汉语语句,设定分析窗口长度;2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。本发明能够显著地提高了切分和标注的精确度。
-
公开(公告)号:CN101079028A
公开(公告)日:2007-11-28
申请号:CN200710099724.6
申请日:2007-05-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种统计机器翻译的在线翻译模型选择方法,包括训练和翻译两个阶段,训练阶段包括:收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中;为子语料库训练候选翻译模型;为子语料库建立索引,得到语料库索引文件;翻译阶段包括:输入待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的句子;根据检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;根据最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。本发明很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题,能够有效地提高统计机器翻译系统的翻译质量。
-
公开(公告)号:CN103473223B
公开(公告)日:2017-05-03
申请号:CN201310450616.4
申请日:2013-09-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于句法树的规则抽取方法,包括:1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;2)遍历步骤1)标记好的源语言依存句法树,抽取中心‑修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心‑修饰片段,得到含成分短语节点的中心‑修饰片段;3)依据所抽取的含成分短语节点的中心‑修饰片段,生成含成分短语的中心‑修饰规则。本发明具有较强的长距离翻译调序能力和较好的短语兼容性。
-
-
-
-
-
-
-
-
-