面向海量数据采集的分布式网络爬虫性能优化系统

    公开(公告)号:CN110866166A

    公开(公告)日:2020-03-06

    申请号:CN201911110921.2

    申请日:2019-11-14

    Abstract: 本发明属于软件工程技术领域,具体涉及一种面向海量数据采集的分布式网络爬虫性能优化系统。所述系统中,初始化模块用于新建一个去重字符串和一个垃圾链接特征字符串;主节点爬行器用于读取到初始URL地址,爬取模块爬取初始URL地址,生成URL任务队列;爬取模块用于根据URL任务队列进行网页爬取,完成爬取工作。与现有技术相比较,本发明突破了分布式网络爬虫爬取性能瓶颈,爬取性能提高50%以上;提高了URL任务队列的去重效率,满足海量数据采集的效率要求;优化了URL任务队列的存储空间,极大地节省了服务器内存资源;增加了垃圾链接过滤环节,不仅节约服务器内存资源,而且显著提高爬虫效率。

    城市污水周边环境模型的处理系统及方法

    公开(公告)号:CN112364118B

    公开(公告)日:2021-06-22

    申请号:CN202011336852.X

    申请日:2020-11-25

    Abstract: 本发明涉及一种城市污水周边环境模型的处理系统及方法,属于模型管理技术领域,解决了现有的污水周边环境二维模型直观性差、地图服务更新频率高、效率低的问题。该系统包括:模型建立模块,建立不同时间段对应的污水周边环境三维模型;基础地形图发布模块,发布目标污水周边环境的基础地形图;转换模块,对周边环境三维模型进行瓦片化处理获得不同分辨率的子模型,并分别转化为第一文本文件;对应地将基础地形图进行瓦片化处理,并分别转化为第二文本文件和第三文本文件;融合模块,将目标时间段内相同分辨率的上述文本文件进行融合获得目标污水对应的可视化周边环境三维模型。通过该系统既能直观了解污水周围环境,又能够避免频繁更新地图服务。

    城市污水周边环境模型的处理系统及方法

    公开(公告)号:CN112364118A

    公开(公告)日:2021-02-12

    申请号:CN202011336852.X

    申请日:2020-11-25

    Abstract: 本发明涉及一种城市污水周边环境模型的处理系统及方法,属于模型管理技术领域,解决了现有的污水周边环境二维模型直观性差、地图服务更新频率高、效率低的问题。该系统包括:模型建立模块,建立不同时间段对应的污水周边环境三维模型;基础地形图发布模块,发布目标污水周边环境的基础地形图;转换模块,对周边环境三维模型进行瓦片化处理获得不同分辨率的子模型,并分别转化为第一文本文件;对应地将基础地形图进行瓦片化处理,并分别转化为第二文本文件和第三文本文件;融合模块,将目标时间段内相同分辨率的上述文本文件进行融合获得目标污水对应的可视化周边环境三维模型。通过该系统既能直观了解污水周围环境,又能够避免频繁更新地图服务。

    面向海量数据采集的分布式网络爬虫性能优化方法

    公开(公告)号:CN110874429A

    公开(公告)日:2020-03-10

    申请号:CN201911110871.8

    申请日:2019-11-14

    Abstract: 本发明属于软件工程技术领域,具体涉及一种面向海量数据采集的分布式网络爬虫性能优化方法。所述方法包括如下步骤:步骤1:初始化模块新建一个去重字符串和一个垃圾链接特征字符串;步骤2:主节点爬行器读取到初始URL地址,爬取模块爬取初始URL地址,生成URL任务队列;步骤3:爬取模块根据URL任务队列进行网页爬取,完成爬取工作。与现有技术相比较,本发明突破了分布式网络爬虫爬取性能瓶颈,爬取性能提高50%以上;提高了URL任务队列的去重效率,满足海量数据采集的效率要求;优化了URL任务队列的存储空间,极大地节省了服务器内存资源;增加了垃圾链接过滤环节,不仅节约服务器内存资源,而且显著提高爬虫效率。

Patent Agency Ranking