-
公开(公告)号:CN103678565B
公开(公告)日:2017-02-15
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-
公开(公告)号:CN103678565A
公开(公告)日:2014-03-26
申请号:CN201310659722.3
申请日:2013-12-09
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
CPC classification number: G06F17/30666 , G06F17/30737
Abstract: 一种基于自引导方式的领域自适应句子对齐系统,包括:网页处理模块,中文文本处理模块,英文文本处理模块和双语文处理模块。首先,针对不同的网页,对于料进行提取和相应做预处理;使用一种基于自引导的方式并融合多种特征的句子对齐算法对中英文进行句子级的对齐;同时,对可能能够反映相关领域信息和主题信息的互译词对进行提取。本发明提高了句子对齐质量,具有领域适应性强的优点。
-