发明公开
CN108021679A 一种并行化的电力设备缺陷文本分类方法
无效 - 驳回
- 专利标题: 一种并行化的电力设备缺陷文本分类方法
- 专利标题(英): Parallelized method for defective text classification of power equipment
-
申请号: CN201711288010.X申请日: 2017-12-07
-
公开(公告)号: CN108021679A公开(公告)日: 2018-05-11
- 发明人: 杨祎 , 宇文梦柯 , 王智翔 , 白德盟 , 辜超 , 郭志红 , 陈玉峰 , 闫丹凤 , 李贞 , 林颖 , 李程启 , 秦佳峰 , 郑文杰 , 李娜
- 申请人: 国网山东省电力公司电力科学研究院 , 北京邮电大学 , 国家电网公司
- 申请人地址: 山东省济南市望岳路2000号; ;
- 专利权人: 国网山东省电力公司电力科学研究院,北京邮电大学,国家电网公司
- 当前专利权人: 国网山东省电力公司电力科学研究院,北京邮电大学,国家电网公司
- 当前专利权人地址: 山东省济南市望岳路2000号; ;
- 代理机构: 济南圣达知识产权代理有限公司
- 代理商 张勇
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明公开了一种并行化的电力设备缺陷文本分类方法,将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;将获取的缺陷案例和词向量进行向量化表示,将缺陷案例进行文本表示,形成矩阵;将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。