-
公开(公告)号:CN104657450A
公开(公告)日:2015-05-27
申请号:CN201510061345.2
申请日:2015-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30536 , G06F17/30321 , G06F17/3033 , G06F17/30371 , G06F17/30539
Abstract: 本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count-Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count-min Sketch结构,随着数据不断加载,当Count-min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count-min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。
-
公开(公告)号:CN104657450B
公开(公告)日:2018-09-25
申请号:CN201510061345.2
申请日:2015-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count‑Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count‑min Sketch结构,随着数据不断加载,当Count‑min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count‑min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。
-