-
公开(公告)号:CN106934005A
公开(公告)日:2017-07-07
申请号:CN201710130909.2
申请日:2017-03-07
Applicant: 重庆邮电大学
Abstract: 本发明公开了一种基于密度的文本聚类算法研究。该方法包括下列步骤:利用ICTCLAS分词系统对文本集中文本进行分词处理,对分词按照名词、动词、形容词三种词性和词频来对分词提取相应关键词;对得到的关键词采用改进的知网词汇相似度算法计算关键词相似度;根据文本中的关键词相似度计算文本的相似度;根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类,以能够显著提高现有的文本相关的信息检索技术的性能。