发明公开
CN104657351A 双语对齐语料的加工方法及装置
无效 - 驳回
- 专利标题: 双语对齐语料的加工方法及装置
- 专利标题(英): Method and device for processing bilingual alignment corpora
-
申请号: CN201510076025.4申请日: 2015-02-12
-
公开(公告)号: CN104657351A公开(公告)日: 2015-05-27
- 发明人: 刘汇丹 , 龙从军 , 诺明花 , 安波 , 吴健
- 申请人: 中国科学院软件研究所
- 申请人地址: 北京市海淀区中关村南四街4号
- 专利权人: 中国科学院软件研究所
- 当前专利权人: 中国科学院软件研究所
- 当前专利权人地址: 北京市海淀区中关村南四街4号
- 代理机构: 北京汇泽知识产权代理有限公司
- 代理商 张瑾
- 主分类号: G06F17/28
- IPC分类号: G06F17/28
摘要:
本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;提取所述第二语种文章的特征;根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;当所述第一语种文章与第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。本发明适用于双语对齐语料的自动加工。