-
公开(公告)号:CN108388603B
公开(公告)日:2022-05-17
申请号:CN201810113980.4
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F16/22 , G06F16/2458
Abstract: 本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法,以Spark平台为基础,利用q‑digest结构获得数据区间分布情况,BloomFilter获取组员存在信息,HyperLogLogPlus记录数据基数信息,实现高吞吐低延迟的处理能力,且能够快速响应查询要求,有效适应Spark分布式计算环境,返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。
-
公开(公告)号:CN108388603A
公开(公告)日:2018-08-10
申请号:CN201810113980.4
申请日:2018-02-05
Applicant: 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法,以Spark平台为基础,利用q-digest结构获得数据区间分布情况,BloomFilter获取组员存在信息,HyperLogLogPlus记录数据基数信息,实现高吞吐低延迟的处理能力,且能够快速响应查询要求,有效适应Spark分布式计算环境,返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。
-