- 专利标题: 一种基于同类词与同义词替换的数据增强机器翻译方法
-
申请号: CN201810723531.1申请日: 2018-07-04
-
公开(公告)号: CN108920473A公开(公告)日: 2018-11-30
- 发明人: 汪一鸣 , 熊德意 , 秦文杰 , 程国艮
- 申请人: 中译语通科技股份有限公司
- 申请人地址: 北京市石景山区石景山路20号16层1601
- 专利权人: 中译语通科技股份有限公司
- 当前专利权人: 中译语通科技股份有限公司
- 当前专利权人地址: 北京市石景山区石景山路20号16层1601
- 代理机构: 北京万贝专利代理事务所
- 代理商 马红
- 主分类号: G06F17/28
- IPC分类号: G06F17/28
摘要:
本发明属于自然语言的处理或转换技术领域,公开了一种基于同类词与同义词替换的数据增强机器翻译方法,利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;扩充小语种的平行语料,再采用编码-解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。扩充了训练数据,神经网络翻译模型的参数能够在足够多的数据中得到很好的学习,并且可以缓解神经机器翻译中未登录词这一问题,使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时,网络参数已经得到了很好的学习。
公开/授权文献
- CN108920473B 一种基于同类词与同义词替换的数据增强机器翻译方法 公开/授权日:2022-08-09