发明授权
CN102663058B 一种分布式网络爬虫系统中的URL去重方法
失效 - 权利终止
- 专利标题: 一种分布式网络爬虫系统中的URL去重方法
- 专利标题(英): URL duplication removing method in distributed network crawler system
-
申请号: CN201210090259.0申请日: 2012-03-30
-
公开(公告)号: CN102663058B公开(公告)日: 2013-12-18
- 发明人: 邹复好 , 凌贺飞 , 李平 , 刘学 , 邱荷花
- 申请人: 华中科技大学
- 申请人地址: 湖北省武汉市洪山区珞喻路1037号
- 专利权人: 华中科技大学
- 当前专利权人: 华中科技大学
- 当前专利权人地址: 湖北省武汉市洪山区珞喻路1037号
- 代理机构: 华中科技大学专利中心
- 代理商 朱仁玲
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明提供了一种分布式网络爬虫系统中的URL去重方法,通过引入虚拟爬行结点,实现了高效的任务划分策略,从而更好地适应分布式网络爬虫系统中实际爬行结点的动态变化,在任务划分策略基础上使用一种分布式的URL去重方式,从而避免实际爬行结点变化过程中造成的重复爬行。本发明在任务划分时变动规模小,能保证爬虫系统稳定持久运行,划分策略具有动态适应性,能实现实际爬行结点的负载均衡。采用多个布隆过滤器去重结构,减小了去重对内存大小的需求,可实现基于内存的快速去重,在需要时能高效转移和备份,防止由于去重信息缺失而造成爬虫系统重复爬行。本发明效率高,可操作性好,具有极高的应用价值。
公开/授权文献
- CN102663058A 一种分布式网络爬虫系统中的URL去重方法 公开/授权日:2012-09-12