-
公开(公告)号:CN104794158A
公开(公告)日:2015-07-22
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
公开(公告)号:CN114201698A
公开(公告)日:2022-03-18
申请号:CN202010981078.1
申请日:2020-09-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/955
Abstract: 本发明提供一种基于URL特征的网站首页识别方法及电子装置,包括剔除待识别URL首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;按照“/”字符对临时变量t1进行拆分,并进行有效性判断;若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别URL为首页URL。本发明无需训练分类器、人工标注大量数据集及对URL页面内容进行分析,解决了通过语义无法识别嵌套URL的情况,降低了误报率,节省人力与网络资源,提升了识别速度。
-
公开(公告)号:CN103544259B
公开(公告)日:2017-01-18
申请号:CN201310484629.3
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种分组聚集排序TopK查询处理方法及系统。分组聚集排序TopK查询处理方法包括:接收分组聚集排序TopK查询请求;各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;输出所述高频项列表。本发明的分组聚集排序TopK查询处理方法及系统灵活性好,查询效率高,分布式适应性好。
-
公开(公告)号:CN103544258A
公开(公告)日:2014-01-29
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
公开(公告)号:CN103544259A
公开(公告)日:2014-01-29
申请号:CN201310484629.3
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/3053
Abstract: 本发明涉及一种分组聚集排序TopK查询处理方法及系统。分组聚集排序TopK查询处理方法包括:接收分组聚集排序TopK查询请求;各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;输出所述高频项列表。本发明的分组聚集排序TopK查询处理方法及系统灵活性好,查询效率高,分布式适应性好。
-
公开(公告)号:CN110557382A
公开(公告)日:2019-12-10
申请号:CN201910729466.8
申请日:2019-08-08
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种利用域名共现关系的恶意域名检测方法及系统。本发明利用域名请求之间的时间间隔,将DNS请求序列切割成域名共现序列,从而能够有效地将不属于同一网络活动触发的域名请求划分到不同的序列中;同时利用滑动窗口从域名共现序列中提取域名共现对:一方面,滑动窗口的引入成功地消除了由于共现序列长度过长而带来的计算复杂度增加的问题;另一方面,滑动窗口只保留个域名和其窗口内域名的共现关系,而忽略与更远位置的域名关系,能够有效地减少噪声共现关系。本发明能够通过分析域名团簇行为发现可疑的恶意域名团伙,感知恶意域名背后的关联关系,为更深层次研究恶意域名生态系统提供支撑。
-
公开(公告)号:CN104794158B
公开(公告)日:2018-11-13
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
公开(公告)号:CN103544258B
公开(公告)日:2016-11-30
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
公开(公告)号:CN106658563A
公开(公告)日:2017-05-10
申请号:CN201611019747.7
申请日:2016-11-18
Applicant: 北京派网软件有限公司 , 国家计算机网络与信息安全管理中心宁夏分中心 , 国家计算机网络与信息安全管理中心
IPC: H04W24/02
CPC classification number: H04W24/02
Abstract: 本发明提出了一种获取移动终端识别信息的方法及装置,该方法包括:获取有线宽带网络中的移动终端的IP数据报文;对所述移动终端的IP数据报文解封装,过滤掉解封装后的非移动终端IP数据报文;获取过滤后的IP数据报文的关键字段,形成关键字段节点表;根据预设的关键字段节点表与移动终端识别信息映射关系,查询所述关键字段节点表对应的移动终端识别信息。本发明所述移动终端识别信息的方法及装置,通过有线宽带网络获取移动终端识别信息,拓展了移动终端识别信息获取方式,使获取移动终端识别信息的方式更加简单易行,获取的移动终端识别信息更加准确。
-
公开(公告)号:CN106412147A
公开(公告)日:2017-02-15
申请号:CN201611019106.1
申请日:2016-11-18
Applicant: 北京派网软件有限公司 , 国家计算机网络与信息安全管理中心宁夏分中心 , 国家计算机网络与信息安全管理中心
IPC: H04L29/12
CPC classification number: H04L61/609
Abstract: 本发明提出了一种IP地址被动定位方法及装置,该方法包括:对被定位用户的IP数据报文进行过滤;通过对过滤后的IP数据报文进行解封装,获取所述过滤后的IP数据报文的关键字段,形成所述关键字段的节点表;将所述节点表发送至云端,通过对所述节点表与预置的地图进行校验和匹配,对用户进行定位。本发明所述一种IP地址被动定位方法及装置,能够有效提高通过用户IP地址进行用户定位的精度和速度,能够查询大规模区域用户地址数据。
-
-
-
-
-
-
-
-
-