一种细粒度自适应的数据频率测量方法、查询方法及系统

    公开(公告)号:CN117827989A

    公开(公告)日:2024-04-05

    申请号:CN202410054154.2

    申请日:2024-01-15

    Applicant: 厦门大学

    Abstract: 本发明公开了一种细粒度自适应的数据频率测量方法、查询方法及系统,涉及数据处理技术领域,数据频率测量方法包括:初始化步骤,将热部分、冷部分和温部分的计数器均置为0;热部分处理步骤,基于哈希表捕获热数据;冷部分处理步骤,接收热部分处理步骤输出的待存储数据,使用自适应缩放策略来确定冷数据的频率区间;温部分处理步骤,使用sketch算法记录温数据。本发明利用自适应缩放策略动态适应数据流,实现有效分离冷数据和非冷数据,提高数据频率测量准确度。

    基于动态区间扩展的基数估计方法、装置及可读介质

    公开(公告)号:CN118035237A

    公开(公告)日:2024-05-14

    申请号:CN202410166966.6

    申请日:2024-02-06

    Applicant: 厦门大学

    Inventor: 唐璐 肖遥 沈志荣

    Abstract: 本发明公开了一种基于动态区间扩展的基数估计方法、装置及可读介质,包括:构建由m个z位计数器组成的计数器数组;在更新过程中,获取数据包,计算数据包的哈希值并统计其哈希值的前导0的数量,当数据包的哈希值的前导0的数量大于变量阈值r,则确定数据包为被抽样到的数据包,在计数器数组中确定被抽样到的数据包所对应的计数器,当其值为0,则将计数器的值不为0的个数n的值加1;更新被抽样到的数据包所对应的计数器的值,当个数n的值大于或等于固定阈值v,则执行下一轮操作,将变量阈值r加1,根据每一个计数器的值判断其是否减1;根据m、n、r的值查询当前记录到的基数的估计值,能够提高在各种计数范围内的准确性。

Patent Agency Ranking