-
公开(公告)号:CN107273355B
公开(公告)日:2020-07-14
申请号:CN201710435279.X
申请日:2017-06-12
Applicant: 大连理工大学
IPC: G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于字词联合训练的中文词向量生成方法,属于自然语言处理技术领域。将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本发明提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。
-
公开(公告)号:CN107273355A
公开(公告)日:2017-10-20
申请号:CN201710435279.X
申请日:2017-06-12
Applicant: 大连理工大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于字词联合训练的中文词向量生成方法,属于自然语言处理技术领域。将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本发明提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。
-