-
公开(公告)号:CN106484828B
公开(公告)日:2020-01-21
申请号:CN201610864062.6
申请日:2016-09-29
Applicant: 西南科技大学
IPC: G06F16/953 , G06F16/955
Abstract: 本发明公开了一种分布式互联网数据快速采集系统,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;种子网站设置节点用于设置存储数据源的各项参数及抽取规则;超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;实时队列用于存取超链接采集层提取的URL超链接及其对应的抽取规则及已访问过的URL超链接;网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。本发明采用分布式分层协作方式进行数据采集,能够应对数据采集量大、数据来源多、实时性要求高的系统应用需求。
-
公开(公告)号:CN106484828A
公开(公告)日:2017-03-08
申请号:CN201610864062.6
申请日:2016-09-29
Applicant: 西南科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种分布式互联网数据快速采集系统,包括种子网站设置节点,超链接采集层,实时队列,网页下载与解析层,网页数据存储层五个层;种子网站设置节点用于设置存储数据源的各项参数及抽取规则;超链接采集层用于对数据源的超链接列表网页进行请求并提取目标网页的超链接;实时队列用于存取超链接采集层提取的URL超链接及其对应的抽取规则及已访问过的URL超链接;网页下载与解析层用于请求并解析实时队列中未访问过的URL超链接并格式化提取特定数据;网页数据存储层用于存储网页下载与解析层格式化抽取的目标数据。本发明采用分布式分层协作方式进行数据采集,能够应对数据采集量大、数据来源多、实时性要求高的系统应用需求。
-