一种基于主题模型的短文本方面提取方法

    公开(公告)号:CN110532378B

    公开(公告)日:2021-10-26

    申请号:CN201910395663.0

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k‑means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。

    一种基于主题模型的短文本方面提取方法

    公开(公告)号:CN110532378A

    公开(公告)日:2019-12-03

    申请号:CN201910395663.0

    申请日:2019-05-13

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于主题模型的短文本方面提取方法,包括如下步骤:1)伪文档构建阶段:根据数据集构建词汇共现网络,生成词汇的伪文档;2)主题嵌入模块设置阶段:基于伪文档将词嵌入与主题嵌入联合训练,丰富词汇的潜在语义信息;3)注意力机制构建阶段:基于词向量信息重构句嵌入,最小化目标函数生成词汇权重参数;4)方面词汇聚类阶段:在词嵌入高维空间应用k-means聚类算法,输出最终方面词汇簇。本发明将主题嵌入与词嵌入联合训练,丰富了词汇的潜在语义信息,并通过注意力机制提高方面词汇权重,降低非方面词汇的权重,从而极大的提高了短文本方面提取模型的性能。

Patent Agency Ranking