-
公开(公告)号:CN104657450B
公开(公告)日:2018-09-25
申请号:CN201510061345.2
申请日:2015-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count‑Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count‑min Sketch结构,随着数据不断加载,当Count‑min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count‑min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。
-
公开(公告)号:CN104951503B
公开(公告)日:2018-02-27
申请号:CN201510252988.5
申请日:2015-05-18
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明公开了一种新鲜度敏感的大数据概要信息维护及聚合值查询方法。本方法为:1)对每个时间对象的时间对象数据建立一时间追踪器;2)对于待写入的时间对象数据,根据时间对象映射到对应的追踪器,然后追踪器将对应的时间对象数据划分为多个时间阶段并设置每一时间阶段的误差参数;3)追踪器根据每一时间阶段的误差参数对该时间阶段内的时间对象数据进行采样并保存对该时间追踪器对应的样本集合中。查询时首先根据时间对象的关键字key定位到对应的时间追踪器;然后追踪器根据查询时间信息查找该时间追踪器中的时间阶段,根据找到的时间阶段对应的样本返回查询值。本发明有效管理并查询时间对象数据,支持面向主题的更高层次的计算应用。
-
公开(公告)号:CN104657745B
公开(公告)日:2017-12-15
申请号:CN201510046891.9
申请日:2015-01-29
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。
-
公开(公告)号:CN106021290A
公开(公告)日:2016-10-12
申请号:CN201610285422.7
申请日:2016-04-29
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F16/242 , G06F16/29 , G06K9/6215 , G06K9/6285
Abstract: 本发明涉及一种基于多尺度地理信息的社交网络关联挖掘方法。该方法包括:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。本发明通过充分利用位置签到信息来训练获得更鲁棒的预测模型,能够获得理想稳定的预测结果。
-
公开(公告)号:CN104951509A
公开(公告)日:2015-09-30
申请号:CN201510272521.7
申请日:2015-05-25
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F16/90335 , G06F16/182
Abstract: 本发明公开了一种大数据在线交互式查询方法及系统。通过改进MapReduce框架下Map和Reduce之间的数据传递规则,使得Map按照用户定义的计算窗口分块读取并计算计算窗口内的数据,然后直接把计算结果推送给Reduce端,Reduce端在处理完数据后立即返回给用户。以此实现大数据环境下,用户可以根据业务选取不同的属性定义计算窗口,流式返回各个窗口内的计算结果,实现交互式计算的目标。
-
公开(公告)号:CN104731864A
公开(公告)日:2015-06-24
申请号:CN201510088785.7
申请日:2015-02-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30628 , G06F17/30132
Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
-
公开(公告)号:CN104657434A
公开(公告)日:2015-05-27
申请号:CN201510050126.4
申请日:2015-01-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种社交网络结构构建方法。本方法为:1)基于待构建社交网络的社交网络图模型G=(V,L),获取用户之间交互行为的加权链接矩阵以及该社交网络的用户属性矩阵F;2)将加权链接矩阵和用户属性矩阵合并,构建一综合信息矩阵N;3)根据综合信息矩阵N,对||W||0+λrank(W)求最小化,得到该社交网络的链接强度矩阵W;最小化约束条件为N=NW,diag(W)=0,W≥0;4)将该链接强度矩阵W作为该社交网络图模型中边集L的权重信息,得到G=(V,LW),构建出该社交网络的网络结构。本方法可实现对社交网络整体结构的建模,从而获得社交网络中任意用户之间相互关系的真实、可靠度量,且求解效率高。
-
公开(公告)号:CN103678158A
公开(公告)日:2014-03-26
申请号:CN201310732673.1
申请日:2013-12-26
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种数据布局优化方法,具体包括以下步骤:步骤1:接收业务系统输入的连续数据流;步骤2:将数据流划分为连续无交叉的多个数据块;步骤3:判断待处理的数据块是否达到缓存上限,如果是,进行下一步;否则,跳转至步骤1;步骤4:计算得到缓存中的所有数据块的指纹;步骤5:将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将匹配的数据块标记为重复数据块;将不指纹匹配的指纹存入指纹列表中;步骤6:更新数据块信息表中的数据块的物理位置信息;步骤7:根据数据块信息表中的各个数据块的物理位置信息存储对应的数据块。本发明提高了数据的顺序性,降低了数据布局的离散化,提高了重复数据删除系统的顺序读写性能。
-
公开(公告)号:CN103544261A
公开(公告)日:2014-01-29
申请号:CN201310484663.0
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30336 , G06F17/30321
Abstract: 本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子系统中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子系统中的相应数据节点发送远程调用请求;数据存储子系统汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了系统的查询多样性和查询效率,并且提高了系统的可扩展性。
-
公开(公告)号:CN103544259A
公开(公告)日:2014-01-29
申请号:CN201310484629.3
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/3053
Abstract: 本发明涉及一种分组聚集排序TopK查询处理方法及系统。分组聚集排序TopK查询处理方法包括:接收分组聚集排序TopK查询请求;各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;输出所述高频项列表。本发明的分组聚集排序TopK查询处理方法及系统灵活性好,查询效率高,分布式适应性好。
-
-
-
-
-
-
-
-
-