发明公开
- 专利标题: 一种基于WS小世界模型的关键词提取方法
-
申请号: CN202311309424.1申请日: 2023-10-10
-
公开(公告)号: CN117422066A公开(公告)日: 2024-01-19
- 发明人: 马甲林 , 李澳繁 , 陈伟 , 韩庆宾 , 古汉钊 , 王浩 , 谢乾 , 徐培轩 , 汪涛
- 申请人: 淮阴工学院
- 申请人地址: 江苏省淮安市涟水县海安路10号安东大厦8楼
- 专利权人: 淮阴工学院
- 当前专利权人: 淮阴工学院
- 当前专利权人地址: 江苏省淮安市涟水县海安路10号安东大厦8楼
- 代理机构: 淮安市科文知识产权事务所
- 代理商 吴晶晶
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/216 ; G06F40/268 ; G06F18/10 ; G06F16/901
摘要:
本发明公开了一种基于WS小世界模型的关键词提取方法。获取评论文本数据,对其进行数据清洗,得到文本的目标语句;再对目标语句进行预处理,得到候选词;其次将目标语句的候选词集中的候选词作为WS模型中的节点,构建语句词语网络图G,获取词语的WS特征参数;获取候选词的词性、位置、TF‑IDF特征参数;最后根据所获得的WS特征参数和其他特征参数,计算候选词的最终权重,关键词设定为最终权重由高到低排序前N的候选词。与现有技术相比,本发明将WS小世界模型与词性、位置、TF‑IDF等特征相融合,不仅能够反映语言组织结构中深层次的元素间的相关性,而且综合考虑了词语的其他特征,使其较好地提取短文本关键词,提高短文本关键词提取的准确性。