-
公开(公告)号:CN108712503B
公开(公告)日:2021-06-22
申请号:CN201810540298.3
申请日:2018-05-30
Applicant: 南京邮电大学
IPC: H04L29/08
Abstract: 本发明公开了一种网络负载均衡的多代理分布式爬虫系统和方法,其中系统包括用于根据代理节点选择算法选定代理节点并将任务下发的中心控制模块、数据计算模块、代理节点监控模块和代理节点获取模块;本发明方法包括计算任务的权重并根据计算结果筛选出新种子;根据代理节点选择算法选定代理节点并将任务下发至选定代理节点实现网络负载均衡。本发明根据网络负载均衡的代理节点选择算法在实现各代理节点网络负载均衡的基础上选择物理距离最近、等待时间最短、响应最快、成功概率最高的代理节点,可以更好的完成数据爬虫任务;另一方面本发明能够基于代理节点技术通过中心控制模块和代理节点监控模块的协作,有较好的抵御反爬虫系统能力。
-
公开(公告)号:CN108712503A
公开(公告)日:2018-10-26
申请号:CN201810540298.3
申请日:2018-05-30
Applicant: 南京邮电大学
CPC classification number: H04L67/1008 , H04L67/1014 , H04L67/28
Abstract: 本发明公开了一种网络负载均衡的多代理分布式爬虫系统和方法,其中系统包括用于根据代理节点选择算法选定代理节点并将任务下发的中心控制模块、数据计算模块、代理节点监控模块和代理节点获取模块;本发明方法包括计算任务的权重并根据计算结果筛选出新种子;根据代理节点选择算法选定代理节点并将任务下发至选定代理节点实现网络负载均衡。本发明根据网络负载均衡的代理节点选择算法在实现各代理节点网络负载均衡的基础上选择物理距离最近、等待时间最短、响应最快、成功概率最高的代理节点,可以更好的完成数据爬虫任务;另一方面本发明能够基于代理节点技术通过中心控制模块和代理节点监控模块的协作,有较好的抵御反爬虫系统能力。
-