- 专利标题: 一种用于舆情爬取的机构特征词汇扩展系统和方法
-
申请号: CN201911080694.3申请日: 2019-11-07
-
公开(公告)号: CN110852090B公开(公告)日: 2024-03-19
- 发明人: 刘少杰 , 贺敏 , 杜慧 , 孙庆 , 王秀文 , 董琳 , 郭富民 , 杜漫 , 余智华
- 申请人: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市海淀区中关村科学院南路6号科研综合楼900房间;
- 专利权人: 中科天玑数据科技股份有限公司,国家计算机网络与信息安全管理中心
- 当前专利权人: 中科天玑数据科技股份有限公司,国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号科研综合楼900房间;
- 代理机构: 北京沁优知识产权代理有限公司
- 代理商 郭峰
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; H04L41/147
摘要:
本发明提供了一种用于舆情爬取的机构特征词汇扩展系统,包括:数据采集模块:用于采集数据;特征词清洗加工模块:用于对特征词进行初步筛选;特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。本发明另一方面提供了一种用于舆情爬取的机构特征词汇扩展方法,采用上述方案,筛选掉无用特征词并进行分析,生成拓展特征词,全面、快速采集相关舆情信息,一方面有效的避免了漏查情况的发生,另一方面也减少了无用特征词增加无用的数据,提高检索效率和质量,减少内存的占用。
公开/授权文献
- CN110852090A 一种用于舆情爬取的机构特征词汇扩展系统和方法 公开/授权日:2020-02-28