-
公开(公告)号:CN115473659A
公开(公告)日:2022-12-13
申请号:CN202110652291.2
申请日:2021-06-11
Applicant: 国家计算机网络与信息安全管理中心
Inventor: 张凯
Abstract: 本申请提供一种多渠道爬虫采集平台及其采集方法,采集平台包括数据库和集群主体;所述集群主体框架下至少包括一个爬虫集群,所述爬虫集群包括爬虫根节点以及由所述爬虫根节点延伸出的爬虫节点;所述爬虫节点包括采集模块、解析模块、提取模块以及网络访问模块;所述网络访问模块,包括基本网络访问模块和特殊网络访问模块;所述特殊网络访问模块用于通过Privoxy将收到的HTTP请求转给SOCKS5代理,由SOCKS5代理转发至ShadowSocks服务器,再转到网页进行访问;或者先通过Privoxy把收到的HTTP请求转给SOCKS5代理,再由所述SOCKS5代理转发到Tor代理服务器,所述Tor代理服务器再通过SOCKS5转发到ShadowSocks服务器,再通过所述ShadowSocks服务器通过Tor中继节点转到网页进行访问。本申请能够更高效获得网络数据。
-
公开(公告)号:CN110427264B
公开(公告)日:2021-11-30
申请号:CN201910578638.6
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/50 , G06F16/951
Abstract: 本发明提出一种基于Kubernetes的JS解析方法及系统,包括:多台物理机、采集结果库、系统监控模块和解析任务控制模块;物理机,用于根据任务部署JS解析Pod,执行网页采集,将得到的采集结果存至采集结果库;系统监控模块,用于自动读取物理机的机器信息;解析任务控制模块,用于查询系统监控模块,得到各物理机的机器信息,以计算各物理机应部署的JS解析Pod个数,调用Kubernetes API调整各物理机的JS解析Pod个数。本发明有效的利用了空闲时间执行JS解析相关任务,并减小了JS解析的资源消耗。
-
公开(公告)号:CN110427264A
公开(公告)日:2019-11-08
申请号:CN201910578638.6
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/50 , G06F16/951
Abstract: 本发明提出一种基于Kubernetes的JS解析方法及系统,包括:多台物理机、采集结果库、系统监控模块和解析任务控制模块;物理机,用于根据任务部署JS解析Pod,执行网页采集,将得到的采集结果存至采集结果库;系统监控模块,用于自动读取物理机的机器信息;解析任务控制模块,用于查询系统监控模块,得到各物理机的机器信息,以计算各物理机应部署的JS解析Pod个数,调用Kubernetes API调整各物理机的JS解析Pod个数。本发明有效的利用了空闲时间执行JS解析相关任务,并减小了JS解析的资源消耗。
-
-