一种基于网络爬虫的数据处理方法、系统及云平台

发明授权

CN112380418B 一种基于网络爬虫的数据处理方法、系统及云平台有权转让

请登陆查看更多内容

专利标题： 一种基于网络爬虫的数据处理方法、系统及云平台
申请号： CN202011618649.1

申请日： 2020-12-31
公开(公告)号： CN112380418B

公开(公告)日： 2021-07-16
发明人: 詹能勇 , 刘振宇
申请人： 金服软件(广州)有限公司
申请人地址： 广东省广州市天河区粤垦路68号901(部位901-1室)(仅限办公)
专利权人： 金服软件(广州)有限公司
当前专利权人： 金服软件(广州)有限公司
当前专利权人地址： 广东省广州市天河区粤垦路68号901(部位901-1室)(仅限办公)
代理机构： 北京联瑞联丰知识产权代理事务所
代理商 黄冠华
主分类号： G06F16/951
IPC分类号： G06F16/951 ; G06F16/27

摘要：

本发明涉及互联网与数据处理技术领域，具体而言，涉及一种基于网络爬虫的数据处理方法、系统及云平台。本发明通过获取用户输入的网页爬虫指令，网页爬虫指令包括目标网页信息和爬取对象集合，然后获取与目标网页信息和爬取对象集合对应的目标爬虫数据，并将目标爬虫数据保存至目标分布式保存节点中，其中，目标分布式保存节点是分布式存储系统中与网页对象集合对应的保存节点；相比于现有技术，本发明能够提升大规模数据爬取时爬虫数据保存的可靠性，并通过针对当前网页内容数据和历史网页内容数据进行爬取，能够充分的爬取用户所需的数据，提高数据爬取的完整性。

公开/授权文献

CN112380418A 一种基于网络爬虫的数据处理方法、系统及云平台公开/授权日：2021-02-19

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/90	.•与检索数据类型无关的数据库功能
G06F16/95	..••从网上检索
G06F16/951	...•••索引; 网络抓取技术