一种基于请求成功率的自适应休眠时间调节方法
摘要:
本发明公开了一种基于请求成功率的自适应休眠时间调节方法,包括如下步骤:1)检查1个周期内success和fail的和是否为10;2)计算请求周期成功率;3)计算该周期花费的时间;4)计算该周期的每个成功请求所花费的时间;5)将lastKey和lastVal记录为第一个请求周期的休眠时间值以及平均时间,然后将下一个请求周期的休眠时间设置为第一个请求周期休眠时间减gap毫秒,第一个请求周期结束,返回到步骤1);6)与第N‑1个周期比较;7)更新lastKey和lastVal,同时更新lastKey和lastVal,返回到步骤1);8)将下一个N+1周期的休眠时间设置为N‑1的休眠时间加gap毫秒,将lastVal记录为第N‑1个周期的休眠时间,本周期结束,返回到步骤1);9)继续运行。这种方法能提高爬虫运行的效率。
0/0