-
公开(公告)号:CN109993198B
公开(公告)日:2021-06-22
申请号:CN201811600061.6
申请日:2018-12-26
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
Abstract: 本发明提出了一种基于特征同构共享描述的多源异构离群点检测方法,通过在特征同构空间中统一地检测来自异构数据集的离群点,以避免浪费不同来源之间的互补信息,并提高多源离群点的识别率,能够解决在一个一致的特征同构空间中识别所有类型的多源异构离群点的问题。
-
公开(公告)号:CN112257865A
公开(公告)日:2021-01-22
申请号:CN202010940174.1
申请日:2020-09-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种GPU上的基于着色优化的置信传播方法。本发明通过使用信息残差大的顶点对信息残差小的顶点进行固定步长的着色操作,在整个图模型上形成多个以信息残差大的顶点为中心的分区,将该顶点命名为中心点;在每个分区中,按照最远顶点到中心点以及中心点到最远点的顺序对边上的信息进行更新操作,以完成每次迭代的置信传播计算。本发明能够保证置信传播方法在短时间内收敛大多数顶点。
-
公开(公告)号:CN111754383A
公开(公告)日:2020-10-09
申请号:CN202010403115.0
申请日:2020-05-13
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于GPU加速的优化线程调度与分区的强连通图检测方法,为使用异构系统进行强连通图检测的方法,通过将每个warp分成多个虚拟warp并分配多个顶点任务、使用着色分区替换传统的WCC分区等方法平衡了线程分配、增加了每次迭代产生的强连通图数目,从而达到提升算法运行效率的目的。
-
公开(公告)号:CN105989061B
公开(公告)日:2019-11-26
申请号:CN201510066798.4
申请日:2015-02-09
Applicant: 中国科学院信息工程研究所
IPC: G06F16/901
Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。
-
公开(公告)号:CN110287150A
公开(公告)日:2019-09-27
申请号:CN201910405408.X
申请日:2019-05-16
Applicant: 中国科学院信息工程研究所
IPC: G06F16/13 , G06F16/16 , G06F16/182
Abstract: 本发明公开了一种大规模存储系统元数据分布式管理方法与系统。本发明将HDFS存储于NameNode内存中的元数据抽象成二维表的结构,以二维表的形式存储在分布式数据库中;抽象后的各二维表之间通过inode_id相互关联。Namenode成为客户端存取元数据的桥梁,客户端首先连接Namenode,Namenode来操作分布式数据库中的元数据,并将元数据返回给客户端。本发明解决了HDFS的单点故障问题。
-
公开(公告)号:CN104794158B
公开(公告)日:2018-11-13
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
公开(公告)号:CN104731864B
公开(公告)日:2018-05-29
申请号:CN201510088785.7
申请日:2015-02-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
-
公开(公告)号:CN104935348B
公开(公告)日:2018-01-05
申请号:CN201510254377.4
申请日:2015-05-18
Applicant: 中国科学院信息工程研究所
IPC: H03M7/30
Abstract: 本发明公开了一种估算误差可控的概要数据压缩方法。本方法为:1)对每个对象的概要数据建立一时间追踪器;对于待写入的概要数据,根据对象定位到对应的时间追踪器,然后时间追踪器对概要数据进行采样并保存对该时间追踪器对应的样本集合中;2)将每个时间追踪器的样本集合中的样本划分为多个时间阶段并设置误差参数;然后时间追踪器根据对应的误差参数对样本进行采样;3)将处理后的样本集合合并成一个样本集合H,然后将集合H中的样本数据划分多个时间阶段并根据对应误差参数采样写入到一新时间追踪器的样本集合内。本发明压缩后的概要数据不仅线性的提升存储空间,而且仍然能够支持误差限定的近似计算。
-
公开(公告)号:CN107203489A
公开(公告)日:2017-09-26
申请号:CN201710188156.0
申请日:2017-03-27
Applicant: 中国科学院信息工程研究所
IPC: G06F17/16
CPC classification number: G06F17/16
Abstract: 本发明提供一种基于最优重构的特征选择方法,其步骤为:1)将数据集中每个原始特征为d维的数据表示为数据矩阵X,其中d>1;2)对上述数据矩阵X建立最优化线性重构模型,且该模型最优化目标为表示矩阵B;3)将上述数据矩阵X进行转置得到特征矩阵F,并将表示矩阵B进行清零;4)利用迭代交替优化的方式对上述经过步骤3)的最优化线性重构模型进行求解,得到最优表示矩阵B*;5)根据最优表示矩阵B*选取能够表示全部d维特征的最优k维特征子集,其中k
-
公开(公告)号:CN103544258B
公开(公告)日:2016-11-30
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
-
-
-
-
-
-
-
-