一种基于语义词网络的短文本主题挖掘方法

    公开(公告)号:CN110134958B

    公开(公告)日:2021-05-18

    申请号:CN201910400416.5

    申请日:2019-05-14

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。

    一种基于语义词网络的短文本主题挖掘方法

    公开(公告)号:CN110134958A

    公开(公告)日:2019-08-16

    申请号:CN201910400416.5

    申请日:2019-05-14

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。

Patent Agency Ranking