-
公开(公告)号:CN110784862A
公开(公告)日:2020-02-11
申请号:CN201911018089.3
申请日:2019-10-24
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: H04W8/18 , H04W24/00 , G06F16/2457 , G06F16/2458 , G06F16/28
Abstract: 本发明公开了一种基于用户通联数据的移动用户影响力评估方法和系统。该方法包括:移动用户通联数据采集,即从移动网络中采集用户的通话数据,短信数据以及用户的基础信息;移动用户数据处理,即从移动用户通联数据中中提取用户的主被叫关系、通话时长、交互关系以及用户的资费;移动用户标记,即根据给定的移动用户类型信息进行匹配用户对用户进行标记;移动用户影响力评估,即根据移动用户的通联信息以及用户属性等信息对移动用户影响力计算。本发明利用从移动通讯网络上获取的移动用户通联数据以及移动用户属性信息,利用排序算法对移动用户的影响力进行评估,能够有效的解决移动用户的影响力评估问题。
-
公开(公告)号:CN110457315A
公开(公告)日:2019-11-15
申请号:CN201910654984.8
申请日:2019-07-19
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/215 , G06K9/62 , H04L29/08
Abstract: 本发明涉及一种基于用户轨迹数据的群体聚集模式分析方法和系统。该方法包括:1)通过用户群体轨迹数据提取用户的位置数据;2)将各个时间点同一用户的位置数据按照时间顺序整合,形成在时空上具有连续性的轨迹数据;3)根据用户的在时空上具有连续性的轨迹数据构建K-D Tree;4)基于K-D Tree对用户轨迹点进行聚类,得到多个人群的快照簇;5)根据人群的快照簇发现候选人群集合,进而根据候选人群集合发现封闭人群集合。本发明可以快速处理海量用户轨迹日志数据并进行针对对象位置的聚集模式分析,能够保证人群聚集判断的有效性和准确性。
-
公开(公告)号:CN105468677B
公开(公告)日:2019-11-19
申请号:CN201510781245.7
申请日:2015-11-13
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。
-
公开(公告)号:CN108090188B
公开(公告)日:2021-05-07
申请号:CN201711367377.0
申请日:2017-12-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458
Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。
-
公开(公告)号:CN105468677A
公开(公告)日:2016-04-06
申请号:CN201510781245.7
申请日:2015-11-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。
-
公开(公告)号:CN108090188A
公开(公告)日:2018-05-29
申请号:CN201711367377.0
申请日:2017-12-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。
-
公开(公告)号:CN118051643B
公开(公告)日:2024-11-05
申请号:CN202410203154.4
申请日:2024-02-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/906 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明公开了一种面向元数据稀疏分布的LSM数据组织方法及装置。本发明使用动态分区组织排序字符串表,具体先对键值对数据的键名进行聚类分析得到键名群组,然后修剪键名群组形成键值对分区,将键值对数据刷写进对应的键值对分区内形成排序字符串表,各键值对分区独立进行合并排序操作,从而有效限制了元数据稀疏分布的排序字符串表的形成,进而大大减少参与合并排序过程的高层级排序字符串表数量,减少高层级排序字符串表反复参与合并排序操作的次数,检索键值对数据时,键值对分区进一步加快定位键值对数据,从而实现系统读写性能的提升。
-
公开(公告)号:CN118069891A
公开(公告)日:2024-05-24
申请号:CN202410261182.1
申请日:2024-03-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明涉及一种基于滑动窗口的LSM数据合并排序方法和装置。本发明提出的方法首先构建面向合并操作中处于低层级的排序字符串表的滑动窗口,依据滑动窗口选定参与合并操作的低层级排序字符串表,同时获取滑动窗口左右最近的两个排序字符串表,并获取其键控范围,然后在处于高层级的排序字符串表中选择与低层级排序字符串表键控范围存在交集的排序字符串表并获取其键控范围,通过预估合并后排序字符串表的键控范围,并与滑动窗口左右最近的两个排序字符串表键控范围作比较,判定是否进行合并排序操作。本发明减少了处于高层级的排序字符串表反复参与低层级排序字符串表合并过程的次数,加快了合并排序速率,提升了系统读写性能。
-
公开(公告)号:CN107220363B
公开(公告)日:2020-09-22
申请号:CN201710422561.4
申请日:2017-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/2458 , G06F16/22
Abstract: 本发明涉及一种支持全局复杂检索的跨地域查询方法及系统。该方法包括:1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。本发明能够提高对各数据中心大数据的综合分析能力,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。
-
公开(公告)号:CN118051643A
公开(公告)日:2024-05-17
申请号:CN202410203154.4
申请日:2024-02-23
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901 , G06F16/906 , G06F16/907 , G06F16/903 , G06F16/22
Abstract: 本发明公开了一种面向元数据稀疏分布的LSM数据组织方法及装置。本发明使用动态分区组织排序字符串表,具体先对键值对数据的键名进行聚类分析得到键名群组,然后修剪键名群组形成键值对分区,将键值对数据刷写进对应的键值对分区内形成排序字符串表,各键值对分区独立进行合并排序操作,从而有效限制了元数据稀疏分布的排序字符串表的形成,进而大大减少参与合并排序过程的高层级排序字符串表数量,减少高层级排序字符串表反复参与合并排序操作的次数,检索键值对数据时,键值对分区进一步加快定位键值对数据,从而实现系统读写性能的提升。
-
-
-
-
-
-
-
-
-