-
公开(公告)号:CN111222027A
公开(公告)日:2020-06-02
申请号:CN202010002302.8
申请日:2020-01-02
Applicant: 南京邮电大学
IPC: G06F16/951 , G06F16/9538 , G06F16/958 , G06F16/31 , G06F9/50
Abstract: 本发明提出了一种基于微服务架构的分布式网络爬虫数据提取系统及方法,通过当前业界比较前沿的微服务架构理念,将整个爬虫系统拆分成数据提取模块,请求预处理模块,数据分布式存储模块,下载模块等,基于这套系统和云架构,用户可以实现分布式爬虫系统的快速部署,支持水平扩展和容器化部署,可以大大提升爬虫系统的可拓展性及快速部署的能力。