发明公开
CN103218435A 一种中文文本数据聚类方法及系统
失效 - 权利终止
- 专利标题: 一种中文文本数据聚类方法及系统
- 专利标题(英): Method and system for clustering Chinese text data
-
申请号: CN201310130406.7申请日: 2013-04-15
-
公开(公告)号: CN103218435A公开(公告)日: 2013-07-24
- 发明人: 赵旭
- 申请人: 上海嘉之道企业管理咨询有限公司
- 申请人地址: 上海市松江区沪松路315号
- 专利权人: 上海嘉之道企业管理咨询有限公司
- 当前专利权人: 上海嘉之道企业管理咨询有限公司
- 当前专利权人地址: 上海市松江区沪松路315号
- 代理机构: 上海申新律师事务所
- 代理商 竺路玲
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种中文文本数据聚类方法及系统,属于数据挖掘技术领域其中,包括:步骤1将每条所述文本数据进行降维处理;步骤2将所述文本数据根据需要分成多批次;步骤3对单批次中的文本数据根据文本相似性进行聚类操作;步骤4完成所有批次批次之间的聚类操作,形成统一聚类。所述步骤1中的降维操作包括:步骤a.选取特征字集合;步骤b.将每条所述文本数据比照所述特征字集合,统计在所述文本数据中出现的特征字,形成文本数据的特征集合。本发明的有益效果是:通过对文本数据的降维操作和批次处理,有效地提高了系统运行速度和效率,减少了空间开销。解决了大规模中文文本的聚类的处理效率问题以及空间占用量大的性能问题。
公开/授权文献
- CN103218435B 一种中文文本数据聚类方法及系统 公开/授权日:2017-01-25