基于海量数据分析挖掘CDN域名的方法

    公开(公告)号:CN108090188A

    公开(公告)日:2018-05-29

    申请号:CN201711367377.0

    申请日:2017-12-18

    Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。

    一种基于规则配置的URL搜索关键词提取的方法及系统

    公开(公告)号:CN105631050A

    公开(公告)日:2016-06-01

    申请号:CN201610111430.X

    申请日:2016-03-01

    Abstract: 本发明公开了一种基于规则配置的URL搜索关键词提取的方法,包括生成规则:对需要支持的搜索引擎的搜索URL进行分析,提取搜索URL特征并生成规则;配置规则:配置上述步骤分析到的规则;URL过滤:接收第三方的URL数据并与配置的所述规则进行匹配来过滤收到的所有URL数据;关键词处理:当有第三方的URL命中所述规则,则提取该URL的搜索关键词。本发明可以通过配置规则来快速的实现对多种搜索引擎的搜索URL关键字进行提取,实现海量URL数据的快速处理,从而在信安系统或舆情系统中使用本发明可以提供强有力的支撑。

Patent Agency Ranking