-
公开(公告)号:CN108399163B
公开(公告)日:2021-01-12
申请号:CN201810234539.1
申请日:2018-03-21
Applicant: 北京理工大学
IPC: G06F40/242 , G06F40/30 , G06F40/216 , G06F16/35 , G06F16/901
Abstract: 本发明涉及结合文本集词聚合与词组合分布式语义特征的文本相似性度量方法,属于自然语言处理与机器学习领域。本方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后通过词嵌入编码网络构建词嵌入表示,再计算词嵌入的最大加权匹配作为文本相似性度量。本发明具有准确度高、分布式语义特征丰富的特点。构建的词嵌入编码网络可以有效利用词语的语义联系,建立分布式语义信息更加丰富的词嵌入表示,更好的描述词语之间的语义相似性,进一步提升文本相似性度量的准确性。
-
公开(公告)号:CN108399163A
公开(公告)日:2018-08-14
申请号:CN201810234539.1
申请日:2018-03-21
Applicant: 北京理工大学
Abstract: 本发明涉及结合文本集词聚合与词组合分布式语义特征的文本相似性度量方法,属于自然语言处理与机器学习领域。本方法首先联合文本集中词聚合、词组合分布式语义特征进行自编码填词预测,通过自编码的训练过程建立词嵌入编码网络;然后通过词嵌入编码网络构建词嵌入表示,再计算词嵌入的最大加权匹配作为文本相似性度量。本发明具有准确度高、分布式语义特征丰富的特点。构建的词嵌入编码网络可以有效利用词语的语义联系,建立分布式语义信息更加丰富的词嵌入表示,更好的描述词语之间的语义相似性,进一步提升文本相似性度量的准确性。
-