一种适用于类物联网设备生成数据领域的数据压缩和模糊搜索方法

    公开(公告)号:CN116170026A

    公开(公告)日:2023-05-26

    申请号:CN202310146259.6

    申请日:2023-02-17

    Applicant: 南开大学

    Abstract: 本发明公开了一种物联网设备生成数据及其他同类型数据的数据流实时压缩‑索引优化方法,在利用物联网设备生成数据本身的特征的基础上尽可能提高其压缩率和压缩速度,同时支持直接在被压缩数据上建立索引以支持快速的基于编辑距离的模糊搜索。本发明利用了相似压缩思想,需要实时维护一个参考组;本方法首先记录一段时间内到来的数据集合,在压缩阶段同时实时生成索引数据结构,对于新到来的数据项,计算该数据项与之前记录的数据集合的相似度以及该数据项的不同存储方式带来的压缩空间上的增量,以决定是否将该数据项直接压缩或是存储到参考组;在搜索时分为三个阶段,首先在参考组中搜索可能候选项,并将其传递到普通被压缩数据项,其次搜索在第一步中无法搜索到的跨压缩单元的候选项,上述步骤中利用三种过滤方式来大量减少候选项的数量以提高搜索速度,最终进行实际的验证以得到搜索答案。

Patent Agency Ranking