一种应用于网络爬虫的动态流量控制方法

    公开(公告)号:CN106656840B

    公开(公告)日:2019-11-08

    申请号:CN201611057820.X

    申请日:2016-11-25

    Abstract: 本发明涉及网络爬虫的动态流量控制机制,旨在提供一种应用于网络爬虫的动态流量控制方法。该种应用于网络爬虫的动态流量控制方法包括步骤:爬虫程序接收到请求包的响应时,计算本次传输的往返时延R,然后每隔TIME_INTERVAL时间统计该时间间隔内RTT估计器的最小值和最大值再将该往返时延R与RTT统计参数对比,并根据对比结果调整爬虫程序当前的最大并发连接数MaxRequestCount,用于控制爬虫程序的每秒发包数。本发明实现了基于应用层http包的、部署在客户端上的爬虫程序发包速度调节程序,可以减少对服务器造成的压力,有效避免服务器因为爬虫软件快速发包造成的拒绝访问等崩溃错误。

    一种冗余页面的发现方法

    公开(公告)号:CN107729395B

    公开(公告)日:2020-11-24

    申请号:CN201710854632.8

    申请日:2017-09-20

    Inventor: 陈刚 范渊 黄进

    Abstract: 本发明涉及网页搜索引擎技术领域以及网页漏洞检测领域,旨在提供一种冗余页面的发现方法。该种冗余页面的发现方法包括:探测页面收集阶段、探测页面处理阶段、目标页面处理阶段、目标页面识别阶段。本发明通过同类型页面的相似度比较,为了避免服务器对不同类型页面做不同处理导致判断出错,先通过发送该类型确定不存在的页面获取服务器对该类型冗余页面处理结果,基于此信息来判断目标页面是否为冗余页面,弥补了业内对该种页面无法识别的痛点,通过类型判断可以更为精准的来判断是否是冗余页面,避免了服务器对不同类型不同处理导致的判断失败。

Patent Agency Ranking