-
公开(公告)号:CN104391885A
公开(公告)日:2015-03-04
申请号:CN201410624648.6
申请日:2014-11-07
Applicant: 哈尔滨工业大学
Abstract: 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,本发明涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1源语言句子集合S和目标语言句子集合T;2得到平行语料的短语对集合;3得到平行语料的平行短语对;4得到平行语料的非平行短语对;5得到支持向量机二元分类器;6抽取候选平行短语对 ;7获得可比语料中包含噪声的平行短语对;8得到可比语料的平行短语对;9得到扩展解码器等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。
-
公开(公告)号:CN104391885B
公开(公告)日:2017-07-28
申请号:CN201410624648.6
申请日:2014-11-07
Applicant: 哈尔滨工业大学
Abstract: 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,本发明涉及可比语料平行短语对的抽取方法。本发明是要解决获取平行语料需要花费高、将最相近的上下文的两个单词或片段互为翻译应用到可比语料上存在对于双语词典依赖很严重的问题。该方法是通过1源语言句子集合S和目标语言句子集合T;2得到平行语料的短语对集合;3得到平行语料的平行短语对;4得到平行语料的非平行短语对;5得到支持向量机二元分类器;6抽取候选平行短语对 ;7获得可比语料中包含噪声的平行短语对;8得到可比语料的平行短语对;9得到扩展解码器等步骤实现的。本发明应用于可比语料平行短语对的抽取领域。
-