一种基于同类词与同义词替换的数据增强机器翻译方法
摘要:
本发明属于自然语言的处理或转换技术领域,公开了一种基于同类词与同义词替换的数据增强机器翻译方法,利用词向量最终会被很好地聚类的特性,得到质量较高的同类词表与同义词表;用大语种训练过程中得到的词向量构建同类词表与同义词表,再对稀缺的小语种中同类词与同义词进行替换;扩充小语种的平行语料,再采用编码-解码结构和注意力机制的神经网络训练小语种的神经网络机器翻译模型。扩充了训练数据,神经网络翻译模型的参数能够在足够多的数据中得到很好的学习,并且可以缓解神经机器翻译中未登录词这一问题,使得翻译模型的翻译质量得到提升。当整个网络在开发集上的翻译质量不再有明显提升时,网络参数已经得到了很好的学习。
0/0