网络内容异步抓取系统和方法

    公开(公告)号:CN106599094A

    公开(公告)日:2017-04-26

    申请号:CN201611053534.6

    申请日:2016-11-24

    Inventor: 卢刚 孙鹏宇 覃安

    Abstract: 本发明提出一种网络异步抓取系统和方法,该网络异步抓取系统包括任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度;驱动器,用于被调度器触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值;执行器,用于从抓取池中读取URL,并对URL进行抓取。通过本发明能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。

    网络内容异步抓取系统和方法

    公开(公告)号:CN106599094B

    公开(公告)日:2020-05-22

    申请号:CN201611053534.6

    申请日:2016-11-24

    Inventor: 卢刚 孙鹏宇 覃安

    Abstract: 本发明提出一种网络异步抓取系统和方法,该网络异步抓取系统包括任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度;驱动器,用于被调度器触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值;执行器,用于从抓取池中读取URL,并对URL进行抓取。通过本发明能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。

Patent Agency Ranking