双语对齐语料的加工方法及装置
摘要:
本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文章的发布日期相差在预设时间阈值以内的第二语种文章;提取所述第二语种文章的特征;根据所述第一语种文章的特征和所述第二语种文章的特征,计算所述第一语种文章与所述第二语种文章之间的归一化编辑距离;当所述第一语种文章与第二语种文章之间的归一化编辑距离小于预设距离阈值时,将所述第一语种文章和所述第二语种文章作为一对对齐语料,添加到双语对齐语料库中。本发明适用于双语对齐语料的自动加工。
0/0