基于互约束主题模型的半结构短文本集中子话题发现方法

    公开(公告)号:CN107451187B

    公开(公告)日:2020-05-19

    申请号:CN201710484399.9

    申请日:2017-06-23

    发明人: 王嫄 星辰 杨巨成

    IPC分类号: G06F16/35 G06F40/30 G06K9/62

    摘要: 本发明涉及一种基于互约束主题模型的半结构短文本集中子话题发现方法,其主要技术特点是:对含话题标签的短文本集合进行数据清洗;按照种子话题标签抽取出针对某一话题的含指定种子话题标签的短文本;对清洗后的数据进行输入文件生成;将输入文件输入至互约束主题模型中进行模型训练;得到集合中话题标签的语义向量表示、所在文本的平均语义向量表示以及话题标签所在文本的词汇向量表示;将三个向量表示依次接连起来作为一个话题标签的完整语义表示;使用Kmeans聚类方法进行聚类,将聚类得到的类别的质心作为子话题输出。本发明设计合理,其采用互约束潜在主题建模,解决了现有半结构短文本主题语义建模技术面临的高稀疏和高噪音的问题。

    基于互约束主题模型的半结构短文本集中子话题发现方法

    公开(公告)号:CN107451187A

    公开(公告)日:2017-12-08

    申请号:CN201710484399.9

    申请日:2017-06-23

    发明人: 王嫄 星辰 杨巨成

    IPC分类号: G06F17/30 G06F17/27 G06K9/62

    摘要: 本发明涉及一种基于互约束主题模型的半结构短文本集中子话题发现方法,其主要技术特点是:对含话题标签的短文本集合进行数据清洗;按照种子话题标签抽取出针对某一话题的含指定种子话题标签的短文本;对清洗后的数据进行输入文件生成;将输入文件输入至互约束主题模型中进行模型训练;得到集合中话题标签的语义向量表示、所在文本的平均语义向量表示以及话题标签所在文本的词汇向量表示;将三个向量表示依次接连起来作为一个话题标签的完整语义表示;使用Kmeans聚类方法进行聚类,将聚类得到的类别的质心作为子话题输出。本发明设计合理,其采用互约束潜在主题建模,解决了现有半结构短文本主题语义建模技术面临的高稀疏和高噪音的问题。