一种针对定向目标数据拓展的舆情数据采集系统

    公开(公告)号:CN114637903A

    公开(公告)日:2022-06-17

    申请号:CN202210258764.5

    申请日:2022-03-16

    Abstract: 本发明公开了一种针对定向目标数据拓展的舆情数据采集系统,该系统以特定目标数据为种子进行数据扩展,并设计调度策略实现分布式、可持续的数据采集任务,通过人工搜集定向信息采集的目标账号与标签;基于社会网络对种子名单进行扩展;基于相似特征对种子名单进行扩展;搭建分布式迭代数据采集框架;数据关联、去重、结构化等预处理过程;采集程序调度与性能优化策略。本发明在定向数据采集的基础上融合了特征匹配与网络分析技术,通过对种子的数据扩展挖掘潜在关系,实现自动化、可持续、可迭代的分布式信息采集,服务社交媒体分析与关系图谱构建等现实需求。

    一种用于PDF文档页面元素有效信息的提取方法及系统

    公开(公告)号:CN114611466A

    公开(公告)日:2022-06-10

    申请号:CN202210259864.X

    申请日:2022-03-16

    Abstract: 本发明公开了一种用于PDF文档页面元素有效信息的提取方法及系统,包括以下:构建初始PDF文档信息提取模型,并存储至第一存储区域;获取文档解析规则集;根据初始PDF文档信息提取模型和文档解析规则集,生成PDF文档信息提取规则模型,并存储至第二存储区域;根据初始PDF文档信息提取模型和PDF文档信息提取规则模型,构建用于提取PDF文档有效信息的PDF文档信息提取模型;通过设定第一间隔时间,根据初始PDF文档信息提取模型和文档解析规则集,更新PDF文档信息提取模型模型;本发明根据页面顶部和底部文本信息,从前后页面分别获取文本以补全本页面缺失的文本信息,以页面为单位对文本信息进行汇总,信息更为精细化。

Patent Agency Ranking