一种面向WEB服务的通用爬虫引擎系统及其工作方法

    公开(公告)号:CN102184227B

    公开(公告)日:2013-05-08

    申请号:CN201110120161.0

    申请日:2011-05-10

    Abstract: 一种面向WEB服务的通用爬虫引擎系统及其工作方法,该系统设有三种构件:控制中心、储藏库和非结构化WEB服务URL链接及其服务网页的两个特征项词库。作为系统控制中枢的控制中心设有五个功能模块:队列管理器、处理器链、线程池、策略中心和域名管理系统DNS;其中处理器链中的分析保存链增设四个子处理器链,用于处理结构化WEB服务和非结构化WEB服务,对于非结构化WEB服务的URL链接和网页内容分别进行URL链接和网页的分析过滤,并将抓取的原始网页保存于储藏库。本发明系统的可扩展性和伸缩性好,能添加自定义的子处理器链或修改原有子处理器链功能,抓取非结构化服务的准确率高,节省系统资源,能最大量地抓取整个互联网上所有WEB服务。

    一种面向WEB服务的通用爬虫引擎系统及其工作方法

    公开(公告)号:CN102184227A

    公开(公告)日:2011-09-14

    申请号:CN201110120161.0

    申请日:2011-05-10

    Abstract: 一种面向WEB服务的通用爬虫引擎系统及其工作方法,该系统设有三种构件:控制中心、储藏库和非结构化WEB服务URL链接及其服务网页的两个特征项词库。作为系统控制中枢的控制中心设有五个功能模块:队列管理器、处理器链、线程池、策略中心和域名管理系统DNS;其中处理器链中的分析保存链增设四个子处理器链,用于处理结构化WEB服务和非结构化WEB服务,对于非结构化WEB服务的URL链接和网页内容分别进行URL链接和网页的分析过滤,并将抓取的原始网页保存于储藏库。本发明系统的可扩展性和伸缩性好,能添加自定义的子处理器链或修改原有子处理器链功能,抓取非结构化服务的准确率高,节省系统资源,能最大量地抓取整个互联网上所有WEB服务。

Patent Agency Ranking