Patent search ap:("东南大学") AND inv:"张启航" Page 1

1.

发明公开
一种主机负荷智能感知的定向爬虫方法及系统无效

公开(公告)号：CN111125488A

公开(公告)日：2020-05-08

申请号：CN201911353456.5

申请日：2019-12-25

Applicant: 东南大学

Inventor： 凌建辉 , 张启航 , 王天昊 , 曹勇 , 王禄生 , 张柏礼

IPC: G06F16/951 , G06F16/955

Abstract: 本发明公开了一种主机负荷智能感知的定向爬虫方法及系统，方法包括：(1)打开浏览器并定位到待爬取站点，通过模拟浏览器行为实现页面的跳转以及读取；(2)根据设置的检索条件自动生成需要爬取页面的URL集合；(3)根据爬虫任务的重要性和紧迫程度对URL集合进行优先级分级，划分为若干个子集合，为每个子集合分配一个或多个线程来处理；(4)每个线程在进行数据爬取时所采用的方法为：A、对于URL中待爬取的条目，抓取相应内容的关键字词或标题，进行语义分析，并根据语义分析结果筛选爬取内容；B、记录当前页面响应时间，并与历史页面响应时间比较，从而感知主机/网络的繁忙程度，动态地调整爬取速度。本发明爬虫效率更高，且具有自律性，有利于构建良好的互联网生态。

Patent Agency Ranking