-
公开(公告)号:CN106126505B
公开(公告)日:2020-01-31
申请号:CN201610446994.9
申请日:2016-06-20
Applicant: 清华大学
IPC: G06F40/58
Abstract: 本发明涉及一种平行短语学习方法及装置,其中,该方法包括:根据句子级的单语语料库构建短语级的单语语料库;通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;使用两个短语翻译模型,在模型一致性约束下分别从两个单语语料库中抽取平行短语对,以在模型一致性约束下进一步优化两个短语翻译模型。本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更廉价、覆盖语言领域更全面,能补充当前平行语料库不足的情况,并很好地解决噪音的问题,提升抽取出的平行语料的精度和质量。
-
公开(公告)号:CN106126505A
公开(公告)日:2016-11-16
申请号:CN201610446994.9
申请日:2016-06-20
Applicant: 清华大学
IPC: G06F17/28
Abstract: 本发明涉及一种平行短语学习方法及装置,其中,该方法包括:根据句子级的单语语料库构建短语级的单语语料库;通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;使用两个短语翻译模型,在模型一致性约束下分别从两个单语语料库中抽取平行短语对,以在模型一致性约束下进一步优化两个短语翻译模型。本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更廉价、覆盖语言领域更全面,能补充当前平行语料库不足的情况,并很好地解决噪音的问题,提升抽取出的平行语料的精度和质量。
-
公开(公告)号:CN102968463A
公开(公告)日:2013-03-13
申请号:CN201210438968.3
申请日:2012-11-06
Applicant: 清华大学
Abstract: 一种译文检索方法及装置,属于文本信息处理领域,所述方法包括:构建模型参数可设置的统计机器翻译系统及装置;同时构建参数可设置的文本检索系统与装置;使用最佳的参数组合,结合翻译和检索系统及装置,构建基于机器翻译的译文检索系统与装置;对输入的特定源语言句子,可以检索到其对应的目标语言译文实例,或者最佳的译文片段,为用户提供高质量的翻译实例,帮助用户进行翻译工作。所述装置包括:机器翻译模块、检索模块、查询扩展模块、信息呈现模块。本发明结合机器翻译技术与信息检索技术,创新性的在非平行语料库上构建翻译检索系统,有效提高了译文检索的准确度,为用户提供良好的使用体验,具有良好的实用性。
-
公开(公告)号:CN105630776A
公开(公告)日:2016-06-01
申请号:CN201510998012.2
申请日:2015-12-25
Applicant: 清华大学
IPC: G06F17/28
CPC classification number: G06F17/2827 , G06F17/289
Abstract: 本发明涉及一种双向词语对齐方法及装置,其中,方法包括构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;利用一致性评估函数,融合两个方向的词语对齐模型,构建初始目标函数;利用一致性评估函数,对两个方向的词语对齐模型进行联合训练,形成优化目标函数;利用优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。系统包括词语对齐模型构建模块、目标函数构建模块、联合训练模块、词语对齐分析模块。通过本发明提供方法及装置,由于引入了一致性评估函数,能对两个方向的词语对齐模型进行联合训练,使两个方向的词语对齐模型相互纠错,极大的降低了词语对齐的错误率。
-
-
-