-
公开(公告)号:CN117827989A
公开(公告)日:2024-04-05
申请号:CN202410054154.2
申请日:2024-01-15
Applicant: 厦门大学
IPC: G06F16/28 , G06F16/22 , G06F16/2455 , G06F16/2458
Abstract: 本发明公开了一种细粒度自适应的数据频率测量方法、查询方法及系统,涉及数据处理技术领域,数据频率测量方法包括:初始化步骤,将热部分、冷部分和温部分的计数器均置为0;热部分处理步骤,基于哈希表捕获热数据;冷部分处理步骤,接收热部分处理步骤输出的待存储数据,使用自适应缩放策略来确定冷数据的频率区间;温部分处理步骤,使用sketch算法记录温数据。本发明利用自适应缩放策略动态适应数据流,实现有效分离冷数据和非冷数据,提高数据频率测量准确度。
-
公开(公告)号:CN118035237A
公开(公告)日:2024-05-14
申请号:CN202410166966.6
申请日:2024-02-06
Applicant: 厦门大学
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明公开了一种基于动态区间扩展的基数估计方法、装置及可读介质,包括:构建由m个z位计数器组成的计数器数组;在更新过程中,获取数据包,计算数据包的哈希值并统计其哈希值的前导0的数量,当数据包的哈希值的前导0的数量大于变量阈值r,则确定数据包为被抽样到的数据包,在计数器数组中确定被抽样到的数据包所对应的计数器,当其值为0,则将计数器的值不为0的个数n的值加1;更新被抽样到的数据包所对应的计数器的值,当个数n的值大于或等于固定阈值v,则执行下一轮操作,将变量阈值r加1,根据每一个计数器的值判断其是否减1;根据m、n、r的值查询当前记录到的基数的估计值,能够提高在各种计数范围内的准确性。
-