Patent search ap:("百度在线网络技术(北京)有限公司") AND inv:"余庆生" Page 1

1.

发明公开
一种用于抓取网站数据的方法与设备有权

公开(公告)号：CN103246675A

公开(公告)日：2013-08-14

申请号：CN201210030588.6

申请日：2012-02-10

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 江军 , 余庆生

IPC: G06F17/30

Abstract: 本发明的目的是提供一种用于抓取网站数据的方法与设备。首先，根据所述网站拓扑结构信息，由当前根页面中的全部链接选择一个未访问链接，并获取其指向的下一层页面；接着，根据第一预定规则，判断所述下一层页面是否为目标信息页面；当所述下一层页面不为目标信息页面，则将所述下一层页面作为当前根页面，重复执行所述步骤a和b，直至满足第一预定条件；当判断所述下一层页面为目标信息页面时，抓取所述目标信息页面；当满足第二预定条件，将前一根页面作为当前根页面，重复执行所述步骤a、b、c1和c2。与现有技术相比，本发明采用深度优先遍历的方式，实现了抓取整个网站的目标数据，保证了对目标数据抓取的准确性，提高数据抓取的效率。

2.

发明授权
一种用于抓取网站数据的方法与设备有权

公开(公告)号：CN103246675B

公开(公告)日：2018-01-12

申请号：CN201210030588.6

申请日：2012-02-10

Applicant: 百度在线网络技术(北京)有限公司

Inventor： 江军 , 余庆生

IPC: G06F17/30

Abstract: 本发明的目的是提供一种用于抓取网站数据的方法与设备。首先，根据所述网站拓扑结构信息，由当前根页面中的全部链接选择一个未访问链接，并获取其指向的下一层页面；接着，根据第一预定规则，判断所述下一层页面是否为目标信息页面；当所述下一层页面不为目标信息页面，则将所述下一层页面作为当前根页面，重复执行所述步骤a和b，直至满足第一预定条件；当判断所述下一层页面为目标信息页面时，抓取所述目标信息页面；当满足第二预定条件，将前一根页面作为当前根页面，重复执行所述步骤a、b、c1和c2。与现有技术相比，本发明采用深度优先遍历的方式，实现了抓取整个网站的目标数据，保证了对目标数据抓取的准确性，提高数据抓取的效率。

Patent Agency Ranking