一种分布式网络爬虫系统中的URL去重方法
摘要:
本发明提供了一种分布式网络爬虫系统中的URL去重方法,通过引入虚拟爬行结点,实现了高效的任务划分策略,从而更好地适应分布式网络爬虫系统中实际爬行结点的动态变化,在任务划分策略基础上使用一种分布式的URL去重方式,从而避免实际爬行结点变化过程中造成的重复爬行。本发明在任务划分时变动规模小,能保证爬虫系统稳定持久运行,划分策略具有动态适应性,能实现实际爬行结点的负载均衡。采用多个布隆过滤器去重结构,减小了去重对内存大小的需求,可实现基于内存的快速去重,在需要时能高效转移和备份,防止由于去重信息缺失而造成爬虫系统重复爬行。本发明效率高,可操作性好,具有极高的应用价值。
公开/授权文献
0/0