一种基于字词联合训练的中文词向量生成方法

    公开(公告)号:CN107273355B

    公开(公告)日:2020-07-14

    申请号:CN201710435279.X

    申请日:2017-06-12

    Abstract: 本发明公开了一种基于字词联合训练的中文词向量生成方法,属于自然语言处理技术领域。将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本发明提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。

    一种基于字词联合训练的中文词向量生成方法

    公开(公告)号:CN107273355A

    公开(公告)日:2017-10-20

    申请号:CN201710435279.X

    申请日:2017-06-12

    Abstract: 本发明公开了一种基于字词联合训练的中文词向量生成方法,属于自然语言处理技术领域。将词中的汉字信息作为重要特征,结合上下文词和汉字,联合训练中文的词向量表示。在基于词本身的词向量模型的基础上,我们通过引入词本身的组成汉字信息,在基于上下文词预测目标词的同时,基于上下文字预测目标词。将基于词本身的模型字词联合训练模型分别应用,比较两个模型的训练词向量的有效性和鲁棒性,发现字词联合训练模型生成的中文词向量更符合中文语义特性,同时鲁棒性也更好。本发明提供了中文词向量生成的一种新方法,为中文词向量的生成和应用工作提供了一种新的解决方案。

Patent Agency Ranking