-
公开(公告)号:CN107491444A
公开(公告)日:2017-12-19
申请号:CN201710714527.4
申请日:2017-08-18
Applicant: 南京大学
Abstract: 本发明公开了一种基于双语词嵌入技术的并行化词对齐方法,在Spark平台上利用MPS-Neg双语词嵌入技术获得双语词向量表,由双语词向量表获得词对齐模型,进而进行分布式词对齐任务,利用词对齐结果和MPS-Neg更新双语词向量表,重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。
-
公开(公告)号:CN107491444B
公开(公告)日:2020-10-27
申请号:CN201710714527.4
申请日:2017-08-18
Applicant: 南京大学
IPC: G06F40/58 , G06F40/284
Abstract: 本发明公开了一种基于双语词嵌入技术的并行化词对齐方法,在Spark平台上利用MPS‑Neg双语词嵌入技术获得双语词向量表,由双语词向量表获得词对齐模型,进而进行分布式词对齐任务,利用词对齐结果和MPS‑Neg更新双语词向量表,重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。
-