一种中文文本数据聚类方法及系统
摘要:
本发明公开了一种中文文本数据聚类方法及系统,属于数据挖掘技术领域其中,包括:步骤1将每条所述文本数据进行降维处理;步骤2将所述文本数据根据需要分成多批次;步骤3对单批次中的文本数据根据文本相似性进行聚类操作;步骤4完成所有批次批次之间的聚类操作,形成统一聚类。所述步骤1中的降维操作包括:步骤a.选取特征字集合;步骤b.将每条所述文本数据比照所述特征字集合,统计在所述文本数据中出现的特征字,形成文本数据的特征集合。本发明的有益效果是:通过对文本数据的降维操作和批次处理,有效地提高了系统运行速度和效率,减少了空间开销。解决了大规模中文文本的聚类的处理效率问题以及空间占用量大的性能问题。
公开/授权文献
0/0