一种多渠道爬虫采集平台及其采集方法

    公开(公告)号:CN115473659A

    公开(公告)日:2022-12-13

    申请号:CN202110652291.2

    申请日:2021-06-11

    Inventor: 张凯

    Abstract: 本申请提供一种多渠道爬虫采集平台及其采集方法,采集平台包括数据库和集群主体;所述集群主体框架下至少包括一个爬虫集群,所述爬虫集群包括爬虫根节点以及由所述爬虫根节点延伸出的爬虫节点;所述爬虫节点包括采集模块、解析模块、提取模块以及网络访问模块;所述网络访问模块,包括基本网络访问模块和特殊网络访问模块;所述特殊网络访问模块用于通过Privoxy将收到的HTTP请求转给SOCKS5代理,由SOCKS5代理转发至ShadowSocks服务器,再转到网页进行访问;或者先通过Privoxy把收到的HTTP请求转给SOCKS5代理,再由所述SOCKS5代理转发到Tor代理服务器,所述Tor代理服务器再通过SOCKS5转发到ShadowSocks服务器,再通过所述ShadowSocks服务器通过Tor中继节点转到网页进行访问。本申请能够更高效获得网络数据。

Patent Agency Ranking