一种交互式抽取可比语料与双语词典的方法及其装置

    公开(公告)号:CN104572634B

    公开(公告)日:2017-08-11

    申请号:CN201410830446.7

    申请日:2014-12-25

    IPC分类号: G06F17/28 G06F17/30

    摘要: 本发明涉及一种交互式抽取可比语料与双语词典的方法及其装置,解决了领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷。本发明包括:对文档进行词性还原、分词、去停用词,得到预处理后的文档集合以及词汇集合;分别构建源语言文档‑目标语言文档、源语言词汇‑目标语言词汇、双语词汇对‑双语文档对的关系;迭代增强计算双语文档对和双语词汇对的权重;选择权重最大的双语文档对构建可比语料,选择权重最大的双语词汇对构建双语词典。通过不同语言文档相似性促进不同语言词汇相似性的判断,不同语言词汇的相似性增强不同语言文档的相似性,二者交互式迭代增强实现同步抽取可比语料和双语词典。

    一种网络可比语料的挖掘方法及装置

    公开(公告)号:CN103473280A

    公开(公告)日:2013-12-25

    申请号:CN201310382010.1

    申请日:2013-08-28

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明涉及网络可比语料的挖掘方法,包括:利用网络爬虫获取源语言网页,经预处理后形成源语言文档;分析源语言文档的跨语言主题的概率,产生对应的目标语言查询词;将目标语言查询词提交搜索引擎,选取前N的文档构成目标语言候选相似文档集;计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的文档构建可比语料库。本发明还公开了一种实施网络可比语料的挖掘方法的装置。本发明避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率;源语言和目标语言相似文档匹配通过主题分布的相似性实现,提高了语料库建设的准确度。