- 专利标题: 基于互约束主题模型的半结构短文本集中子话题发现方法
- 专利标题(英): Subtopic discovery method for semi-structure short text set based on mutual-constraint topic model
-
申请号: CN201710484399.9申请日: 2017-06-23
-
公开(公告)号: CN107451187A公开(公告)日: 2017-12-08
- 发明人: 王嫄 , 星辰 , 杨巨成
- 申请人: 天津科技大学
- 申请人地址: 天津市河西区大沽南路1038号天津科技大学
- 专利权人: 天津科技大学
- 当前专利权人: 天津科技大学
- 当前专利权人地址: 天津市河西区大沽南路1038号天津科技大学
- 代理机构: 天津盛理知识产权代理有限公司
- 代理商 王利文
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27 ; G06K9/62
摘要:
本发明涉及一种基于互约束主题模型的半结构短文本集中子话题发现方法,其主要技术特点是:对含话题标签的短文本集合进行数据清洗;按照种子话题标签抽取出针对某一话题的含指定种子话题标签的短文本;对清洗后的数据进行输入文件生成;将输入文件输入至互约束主题模型中进行模型训练;得到集合中话题标签的语义向量表示、所在文本的平均语义向量表示以及话题标签所在文本的词汇向量表示;将三个向量表示依次接连起来作为一个话题标签的完整语义表示;使用Kmeans聚类方法进行聚类,将聚类得到的类别的质心作为子话题输出。本发明设计合理,其采用互约束潜在主题建模,解决了现有半结构短文本主题语义建模技术面临的高稀疏和高噪音的问题。
公开/授权文献
- CN107451187B 基于互约束主题模型的半结构短文本集中子话题发现方法 公开/授权日:2020-05-19