一种大数据网络爬虫分页配置方法

    公开(公告)号:CN107016102B

    公开(公告)日:2019-12-03

    申请号:CN201710236259.X

    申请日:2017-04-12

    Abstract: 本发明公开了一种大数据网络爬虫分页配置方法,它包括以下步骤:(1)第一配置,配置分页组的定位符;(2)第二配置,配置页面按钮的匹配符;(3)第三配置,配置标签的属性元素;(4)第四配置,配置标题元素;(5)第五配置,配置文本元素。本发明通过对爬虫脚本的分页部分进行配置,通过采用一种可配置匹配符,在一组选定的标签中自动匹配其属性信息,然后返回特征值信息,用于分页数据精准指向相应的页面按钮,防止网络页面结构混乱导致无法循环爬取网页数据,能够充分保障大数据网络爬虫产品能够循环爬取数据,增强网页过滤能力,有助于提高大数据爬虫产品的网络数据爬取效率。

    一种大数据网络爬虫分页配置方法

    公开(公告)号:CN107016102A

    公开(公告)日:2017-08-04

    申请号:CN201710236259.X

    申请日:2017-04-12

    Abstract: 本发明公开了一种大数据网络爬虫分页配置方法,它包括以下步骤:(1)第一配置,配置分页组的定位符;(2)第二配置,配置页面按钮的匹配符;(3)第三配置,配置标签的属性元素;(4)第四配置,配置标题元素;(5)第五配置,配置文本元素。本发明通过对爬虫脚本的分页部分进行配置,通过采用一种可配置匹配符,在一组选定的标签中自动匹配其属性信息,然后返回特征值信息,用于分页数据精准指向相应的页面按钮,防止网络页面结构混乱导致无法循环爬取网页数据,能够充分保障大数据网络爬虫产品能够循环爬取数据,增强网页过滤能力,有助于提高大数据爬虫产品的网络数据爬取效率。

    一种大数据网络爬虫分页选择方法和系统

    公开(公告)号:CN107066576B

    公开(公告)日:2019-11-12

    申请号:CN201710236260.2

    申请日:2017-04-12

    Abstract: 本发明公开了一种大数据网络爬虫分页选择方法和系统。方法包括以下步骤:解析爬虫脚本;获取匹配符,对爬虫脚本内容中的标签信息进行匹配;将匹配成功的标签的特征值存入URL队列中;获取URL队列中的URL连接地址,校验URL连接地址;获取校验后的URL连接地址,进行地址匹配;解析地址匹配成功的URL地址的网页,获取分页信息;系统包括第一解析模块,第一匹配模块,存储模块,获取模块,第二匹配模块,第二解析模块和配置模块。本发明解决了当网页中的页面按钮HTML结构发生改变时,不能循环爬取网页数据的问题,能够精准识别数据的分页标签,有效防止循环爬取数据过程中断,提升了网页数据的爬取效率。

    一种大数据网络爬虫分页选择方法和系统

    公开(公告)号:CN107066576A

    公开(公告)日:2017-08-18

    申请号:CN201710236260.2

    申请日:2017-04-12

    Abstract: 本发明公开了一种大数据网络爬虫分页选择方法和系统。方法包括以下步骤:解析爬虫脚本;获取匹配符,对爬虫脚本内容中的标签信息进行匹配;将匹配成功的标签的特征值存入URL队列中;获取URL队列中的URL连接地址,校验URL连接地址;获取校验后的URL连接地址,进行地址匹配;解析地址匹配成功的URL地址的网页,获取分页信息;系统包括第一解析模块,第一匹配模块,存储模块,获取模块,第二匹配模块,第二解析模块和配置模块。本发明解决了当网页中的页面按钮HTML结构发生改变时,不能循环爬取网页数据的问题,能够精准识别数据的分页标签,有效防止循环爬取数据过程中断,提升了网页数据的爬取效率。

    一种大数据分析引擎的数据库适配方法

    公开(公告)号:CN106897467A

    公开(公告)日:2017-06-27

    申请号:CN201710271322.3

    申请日:2017-04-24

    CPC classification number: G06F16/2453 G06F16/25 G06F16/27

    Abstract: 本发明公开了一种大数据分析引擎的数据库适配方法,它包括以下步骤:定义数据库访问语句能够访问的关系型数据库;从接收的数据库访问指令中获取数据库查询表标识信息;根据数据库查询表标识信息判断数据库访问指令的操作对象并做相应地处理;判断访问指令中的数据库查询语句对应的访问操作是否为查询类操作,如果所述访问操作是查询类操作,则根据数据库语法将查询类操作的访问指令转换为对应的数据库查询指令,使用所述数据库查询指令访问相应的数据库。本发明解决了海量应用程序对具体数据库结构依赖性大,软件的通用性不高和扩充性差等问题。

Patent Agency Ranking