-
公开(公告)号:CN103544258B
公开(公告)日:2016-11-30
申请号:CN201310484503.6
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。
-
公开(公告)号:CN105488401A
公开(公告)日:2016-04-13
申请号:CN201410770580.2
申请日:2014-12-15
Applicant: 国家计算机网络与信息安全管理中心 , 哈尔滨安天科技股份有限公司
IPC: G06F21/56
Abstract: 本发明提出了一种基于概率差异的噪音信息清除方法及系统,包括:获取未知样本的全部行为;分别计算未知样本各行为在恶意程序和可信程序中出现的概率;通过概率差和归一处理后,得到未知样本各行为的贡献度;计算未知样本各行为的贡献度之和,判定未知样本是否为恶意。本发明通过未知样本的行为在恶意程序和可信程序中出现的概率,计算贡献度,进而进一步计算并判断其是否为恶意,能够极大的减少对样本检测的误报。
-