基于多通道代理的数据获取方法、系统及装置

    公开(公告)号:CN112528118A

    公开(公告)日:2021-03-19

    申请号:CN202011491957.2

    申请日:2020-12-17

    Abstract: 本申请提供了一种基于多通道代理的数据获取方法、系统及装置,数据获取方法包括以下步骤:获取所需数据中的关键词;根据获取的关键词调用分布式爬虫框架;所述分布式爬虫框架中设置有多个爬虫节点;改变所述爬虫节点的IP;接收不同IP的爬虫节点爬取的网页数据;对接收到的网页数据进行数据抽取、转换、装载处理,得到有效数据;对有效数据进行存储。本申请通过分布式爬虫框架中的多个爬虫节点形成多通道代理,通过在每次爬取信息前改变分布式爬虫框架中爬虫节点的IP,能够绕过数据提供网站的反爬虫检测手段,用爬虫节点达到多通道代理、发现情报以及清洗、转换等操作,保证数据的精准可靠。

    网络数据报文解析方法及装置

    公开(公告)号:CN104702600A

    公开(公告)日:2015-06-10

    申请号:CN201510092218.9

    申请日:2015-03-02

    Abstract: 本发明实施例提供了一种网络数据报文解析方法及装置,其中,该方法包括:根据开放式系统互联七层结构由低到高的顺序,依次对网络数据报文的头部字段中与每一层对应协议的数据包头执行以下解析步骤:根据预设关键信息表项从当前层对应协议的数据包头中获取当前层对应协议的关键信息;根据预设协议信息项从当前层对应协议的数据包头中获取上一层对应协议的协议类型;根据预设结束位置信息项计算得到当前层对应协议的数据包头在所述网络数据报文的头部字段中的结束位置。该方案可以提高网络数据报文解析方法的通用性,同时提高数据报文解析的便捷度。

    一种基于关键字词频特征的多模式匹配方法

    公开(公告)号:CN105373601B

    公开(公告)日:2019-05-21

    申请号:CN201510755911.X

    申请日:2015-11-09

    Abstract: 本发明提供一种基于关键字词频特征的多模式匹配方法,首先从已知的信息数据库中提取关键字并统计出现频率作为其词频信息,其次采用构造含有关键字词频信息的二叉树完成其中的模式串匹配,在字符匹配过程中若出现字符不相等,则与该不匹配字符所在节点的兄弟节点所含字符进行匹配。其利用信息来源的模式的关键字词频信息构造基于字典树的二叉树完成其中的模式串的匹配,并与AC算法进行了比较。传统的AC算法需要维护三张表,并且在模式匹配过程中会频繁访问这三张表;本发明的一种基于关键字词频特征的多模式匹配方法更多的利用了模式本身的词频信息,并不需要维护过多的信息,这就大大减少了系统的内存消耗。

Patent Agency Ranking