一种电力生产安全隐患文本聚类方法及系统
摘要:
一种电力生产安全隐患文本聚类方法及系统,包括:基于TF‑IDF算法对电力生产安全隐患文本进行jieba文本预处理,生成文本集;对生成的文本集进行基于LSTM的Word2vec文本特征提取;对经过Word2vec文本特征提取的文本集进行基于粒子群优化的K‑means聚类。本发明克服了Word2vec文本特征提取方法中存在的词向量固化和复杂度高的缺点,解决了聚类速度慢和容易陷入局部最优解问题,从而提高电力生产安全隐患文本聚类的效果和准确率;并且能够更好地捕捉电力生产安全隐患文本中单词的含义和上下文信息,满足了下一步聚类方法所需要的文本数据。
0/0