- 专利标题: 一种基于K‑MEANS、WORD2VEC的抽取关键词的方法
- 专利标题(英): Method for extracting keywords based on K-MEANS and WORD2VEC
-
申请号: CN201710352450.0申请日: 2017-05-18
-
公开(公告)号: CN107122352A公开(公告)日: 2017-09-01
- 发明人: 蓝科 , 王纯斌 , 覃进学 , 潘小东
- 申请人: 成都四方伟业软件股份有限公司
- 申请人地址: 四川省成都市高新区科园三路4号1栋2层
- 专利权人: 成都四方伟业软件股份有限公司
- 当前专利权人: 成都四方伟业软件股份有限公司
- 当前专利权人地址: 四川省成都市高新区科园三路4号1栋2层
- 代理机构: 成都金英专利代理事务所
- 代理商 袁英
- 主分类号: G06F17/27
- IPC分类号: G06F17/27 ; G06F17/30 ; G06K9/62
摘要:
本发明公开了一种基于K‑MEANS、WORD2VEC的抽取关键词的方法,该方法通过归纳全局语义和各分支主题,利用WORD2VEC算法构建出空间向量,使用 K‑means算法剔除模糊词,计算质心距,聚类评估后得到高质量的关键词,并且通过提升权重值,实现词库的动态优化,使关键词提取具备学习进化能力。本发明抽取的关键词能够体现文档的内部分类主题,每一个关键字能够很好地的体现该分类,具有最终关键词质量高,适应性更广泛,结果更加准确等特点。
公开/授权文献
- CN107122352B 一种基于K-MEANS、WORD2VEC的抽取关键词的方法 公开/授权日:2020-04-07