-
公开(公告)号:CN108073693A
公开(公告)日:2018-05-25
申请号:CN201711280557.5
申请日:2017-12-07
Applicant: 国家计算机网络与信息安全管理中心
Inventor: 孙波 , 姜栋 , 张伟 , 司成祥 , 杜雄杰 , 李应博 , 房婧 , 姚珊 , 高昕 , 李轶夫 , 刘成 , 侯美佳 , 张建松 , 盖伟麟 , 王忆芳 , 董建武 , 胡晓旭 , 王梦禹 , 毛蔚轩 , 张泽亚 , 李胜男
Abstract: 本发明提出一种基于Hadoop的分布式网络爬虫系统,包括系统总调度模块、页面下载模块、页面解析模块、URL调度模块、文本分类模块、数据存储模块实现对互联网数据的高效准确爬取,特别是本发明通过改进爬虫系统的调度方式和判断逻辑,保证了爬虫系统能够获得多维度的信息,此外,本发明的爬虫系统还结合了分布式系统架构的特点,提高了数据处理效率。