融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法

    公开(公告)号:CN102662936B

    公开(公告)日:2015-01-07

    申请号:CN201210100424.6

    申请日:2012-04-09

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。

    融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法

    公开(公告)号:CN102662936A

    公开(公告)日:2012-09-12

    申请号:CN201210100424.6

    申请日:2012-04-09

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。

Patent Agency Ranking