-
公开(公告)号:CN112347332A
公开(公告)日:2021-02-09
申请号:CN202011287213.9
申请日:2020-11-17
Applicant: 南开大学
IPC: G06F16/951 , G06F16/958
Abstract: 本发明属于计算机WEB技术领域和信息抓取技术领域,具体涉及一个基于网页路径XPath的爬虫目标定位方法。该方法具体步骤如下:步骤1、加载网址信息,获取网址对应的网页;步骤2、根据监控位置现有内容,找到其在网页中的相对位置;步骤3、将网页进行分块,每块网页中包含监控位置内容;步骤4、通过人机交互确定监控范围。本发明基于用户的实际需求,能满足用户对于信息(新闻、通知等内容)监控与采集的需求。本发明基于网页本身的树状结构实现对网页的分块,通过以可视化方式展现出来以及人机交互的方式实现用户需求的精准定位。