-
公开(公告)号:CN106599094A
公开(公告)日:2017-04-26
申请号:CN201611053534.6
申请日:2016-11-24
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种网络异步抓取系统和方法,该网络异步抓取系统包括任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度;驱动器,用于被调度器触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值;执行器,用于从抓取池中读取URL,并对URL进行抓取。通过本发明能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。
-
公开(公告)号:CN108337275A
公开(公告)日:2018-07-27
申请号:CN201710038708.X
申请日:2017-01-19
Applicant: 百度在线网络技术(北京)有限公司
IPC: H04L29/08
Abstract: 本申请公开了用于分发服务器的任务分发方法和装置。本申请中,分发服务器分别与终端设备、处理服务器集群通讯连接,该方法的一具体实施方式包括:接收终端设备发送的任务处理请求,确定该任务处理请求所指示的待处理任务;获取上述处理服务器集群中各处理服务器的特征信息;根据该特征信息,确定处理服务器集群中可用的处理服务器集合以及处理服务器集合中各处理服务器的任务量;根据各处理服务器的任务量,从可用的处理服务器集合中选出处理服务器作为目标处理服务器;将待处理任务分发给目标处理服务器,以便由该目标处理服务器处理上述待处理任务。该实施方式合理地分发调度了待处理任务。
-
公开(公告)号:CN106599094B
公开(公告)日:2020-05-22
申请号:CN201611053534.6
申请日:2016-11-24
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F16/951 , G06F16/955 , G06F9/48
Abstract: 本发明提出一种网络异步抓取系统和方法,该网络异步抓取系统包括任务队列管理器,用于提供至少一个任务队列;调度器,用于从每个任务队列中读取待抓取网络内容的统一资源定位符URL,并根据URL所属任务所在后端的环境类型来触发驱动器对URL进行调度;驱动器,用于被调度器触发之后,读取URL所属任务的任务信息,基于任务信息将URL注入抓取池,并根据任务信息控制URL注入抓取池的频率,任务信息包括每秒查询率和并发值;执行器,用于从抓取池中读取URL,并对URL进行抓取。通过本发明能够在高并发时保障抓取系统的稳定性,有效节省系统资源,提升抓取性能。
-
-