-
公开(公告)号:CN110555146A
公开(公告)日:2019-12-10
申请号:CN201810270472.7
申请日:2018-03-29
Applicant: 中国科学院信息工程研究所
IPC: G06F16/951 , H04L29/08 , H04L29/12
Abstract: 本发明提供一种网络爬虫伪装数据的生成方法,其步骤包括:从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;根据调度策略将所述伪装数据供外部爬虫程序使用。本发明还提供一种网络爬虫伪装数据的生成系统。