一种面向多来源数据管理的半自动化数据采集更新方法

    公开(公告)号:CN113094382B

    公开(公告)日:2022-12-06

    申请号:CN202110363545.9

    申请日:2021-04-02

    Applicant: 南开大学

    Abstract: 本发明属于计算机领域,具体涉及用户在采集大量的有不同来源的数据时,通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。该方法包括如下步骤,步骤1、用户建立数据类型库,并为类型库配置不同来源;步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。

    一种面向多来源数据管理的半自动化数据采集更新方法

    公开(公告)号:CN113094382A

    公开(公告)日:2021-07-09

    申请号:CN202110363545.9

    申请日:2021-04-02

    Applicant: 南开大学

    Abstract: 本发明属于计算机领域,具体涉及用户在采集大量的有不同来源的数据时,通过系统的自动化管理和用户的个性化配置对不同来源的数据进行采集和更新。该方法包括如下步骤,步骤1、用户建立数据类型库,并为类型库配置不同来源;步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新。

    一种基于智能化爬虫的信息订阅方法

    公开(公告)号:CN113779357A

    公开(公告)日:2021-12-10

    申请号:CN202111074611.7

    申请日:2021-09-29

    Applicant: 南开大学

    Abstract: 本发明属于计算机WEB技术领域和信息抓取技术领域,具体涉及一种基于智能化爬虫的信息订阅方法。具体包括步骤如下:步骤1、获得用户期望监控的网址、用户指定的关键词,并显示目标网页;步骤2、获得用户监控的具体方式,包括监控的网页区域、检查网页的时间间隔、监控到用户要求的关键词后的通知方式;步骤3、使用爬虫定时爬取目标网页;步骤4、每次爬取目标网页之后检查用户所选区域中是否出现用户指定关键词,如果没有出现等待一段用户指定的时间间隔再次检查重复步骤3,如果出现用户指定的关键词,则使用用户选定的通知方式向用户发送通知。

    一种基于XPath的爬虫目标定位方法

    公开(公告)号:CN112347332A

    公开(公告)日:2021-02-09

    申请号:CN202011287213.9

    申请日:2020-11-17

    Applicant: 南开大学

    Abstract: 本发明属于计算机WEB技术领域和信息抓取技术领域,具体涉及一个基于网页路径XPath的爬虫目标定位方法。该方法具体步骤如下:步骤1、加载网址信息,获取网址对应的网页;步骤2、根据监控位置现有内容,找到其在网页中的相对位置;步骤3、将网页进行分块,每块网页中包含监控位置内容;步骤4、通过人机交互确定监控范围。本发明基于用户的实际需求,能满足用户对于信息(新闻、通知等内容)监控与采集的需求。本发明基于网页本身的树状结构实现对网页的分块,通过以可视化方式展现出来以及人机交互的方式实现用户需求的精准定位。

Patent Agency Ranking