-
公开(公告)号:CN109582782A
公开(公告)日:2019-04-05
申请号:CN201811256912.X
申请日:2018-10-26
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于用弱监督深度学习的文本聚类方法。本发明步骤如下:(1)、借助有文本点击信息的图像数据集,利用图像视觉信息与图像类别标号,使用图像扩增和聚类构建每个文本的图像类点击特征矩阵;(2)、在初始的类点击矩阵上用排序和传播的方法得到光滑的图像点击特征图。此特征图上进行文本聚类得到初始的文本类别,同时利用点击先验初始化文本权重;(3)、在最小化类内均方误差下,搭建深度文本聚类模型学习深度文本特征;(4)、使用弱监督学习方法对深度模型和文本权重进行联合优化,迭代更新深度模型和文本权重;(5)、利用深度文本模型提取深度文本特征,实现基于K-means方法的聚类。本发明有很强的普适性,有效解决了图像识别中的“语义鸿沟”。