-
公开(公告)号:CN111984848A
公开(公告)日:2020-11-24
申请号:CN202010868327.6
申请日:2020-08-26
Applicant: 东北大学
IPC: G06F16/951 , G06F16/958 , G06F21/56 , G06K9/62
Abstract: 本发明公开一种基于分布式的网络自适应分类爬虫方法,属于网络爬虫和反爬虫技术领域,该方法首先是采用支持向量基SVM对各信息源网站进行反爬虫技术的精确分类;然后根据反爬虫手段的分类结果选择与之相抗衡的爬虫策略,最后基于分布式的自适应爬虫技术进行数据爬取,对分类模型进行评估。该方法可以用于舆情大数据的获取。这样根据反爬虫技术的不同分类,能更加精准有效的采用与之相抗衡的爬虫技术破解,快速获取信息源的数据。极大程度上减少了不必要的测试被反爬手段规避掉的风险。