-
公开(公告)号:CN103246675A
公开(公告)日:2013-08-14
申请号:CN201210030588.6
申请日:2012-02-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明的目的是提供一种用于抓取网站数据的方法与设备。首先,根据所述网站拓扑结构信息,由当前根页面中的全部链接选择一个未访问链接,并获取其指向的下一层页面;接着,根据第一预定规则,判断所述下一层页面是否为目标信息页面;当所述下一层页面不为目标信息页面,则将所述下一层页面作为当前根页面,重复执行所述步骤a和b,直至满足第一预定条件;当判断所述下一层页面为目标信息页面时,抓取所述目标信息页面;当满足第二预定条件,将前一根页面作为当前根页面,重复执行所述步骤a、b、c1和c2。与现有技术相比,本发明采用深度优先遍历的方式,实现了抓取整个网站的目标数据,保证了对目标数据抓取的准确性,提高数据抓取的效率。
-
公开(公告)号:CN103246675B
公开(公告)日:2018-01-12
申请号:CN201210030588.6
申请日:2012-02-10
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明的目的是提供一种用于抓取网站数据的方法与设备。首先,根据所述网站拓扑结构信息,由当前根页面中的全部链接选择一个未访问链接,并获取其指向的下一层页面;接着,根据第一预定规则,判断所述下一层页面是否为目标信息页面;当所述下一层页面不为目标信息页面,则将所述下一层页面作为当前根页面,重复执行所述步骤a和b,直至满足第一预定条件;当判断所述下一层页面为目标信息页面时,抓取所述目标信息页面;当满足第二预定条件,将前一根页面作为当前根页面,重复执行所述步骤a、b、c1和c2。与现有技术相比,本发明采用深度优先遍历的方式,实现了抓取整个网站的目标数据,保证了对目标数据抓取的准确性,提高数据抓取的效率。
-