基于海量数据分析挖掘CDN域名的方法

    公开(公告)号:CN108090188B

    公开(公告)日:2021-05-07

    申请号:CN201711367377.0

    申请日:2017-12-18

    Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。

    基于海量数据分析挖掘CDN域名的方法

    公开(公告)号:CN108090188A

    公开(公告)日:2018-05-29

    申请号:CN201711367377.0

    申请日:2017-12-18

    Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。

    一种基于编码和机器学习的多语种识别方法

    公开(公告)号:CN106528535B

    公开(公告)日:2019-04-26

    申请号:CN201611001398.6

    申请日:2016-11-14

    Abstract: 本发明提供了一种基于编码和机器学习的多语种识别方法,是计算机对自然语言的处理技术。本方法分别通过机器学习单元和编码识别单元对文本进行语种识别,编码识别时还统计各语种的单词量,当机器学习单元的识别结果在编码识别单元的判定区间内,且二者识别的语言一致时,输出单一识别语言,当编码识别单元识别到多种语言时,进行混合语言规则判断,若第二语言在文本中的单词量比例达到设定比例,则判定文本为混合语言。本发明对长文本可先作随机采样再判定,以提高识别效率。本发明能够准确、高效地实现中文简繁体、日、法、英等97种语言的语种识别,同时支持混合语种文本识别,在海量数据分析以及舆情监控中具有广泛的应用前景。

Patent Agency Ranking