-
公开(公告)号:CN108021679A
公开(公告)日:2018-05-11
申请号:CN201711288010.X
申请日:2017-12-07
申请人: 国网山东省电力公司电力科学研究院 , 北京邮电大学 , 国家电网公司
摘要: 本发明公开了一种并行化的电力设备缺陷文本分类方法,将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;将获取的缺陷案例和词向量进行向量化表示,将缺陷案例进行文本表示,形成矩阵;将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。