一种基于双维局部性的相似数据检测方法及计算设备

    公开(公告)号:CN116932281A

    公开(公告)日:2023-10-24

    申请号:CN202310811168.X

    申请日:2023-07-04

    Applicant: 南昌大学

    Abstract: 本发明实施例提供了一种基于双维局部性的相似数据检测方法,包括:初始化空哈希表以记录本次备份中的数据块的容器的容器引用量,获取被数据去重和差量压缩处理完的数据块,如果其重复,且与差量块重复,则用该差量块的基准块更新哈希表;如果数据块不与差量块重复,则用系统内与数据块、重复的数据块更新哈希表;如果数据块、不重复,判断数据块、是否做了差量压缩;如果做了差量压缩,用数据块、的基准块更新哈希表;如果数据块、未做差量压缩,用数据块更新哈希表;统计哈希表中引用量大于预设的容器引用量阈值的容器号,写入新文件。本发明既可检测到绝大部分相似数据块,又能保证检测到的相似数据块具有高相似度。

Patent Agency Ranking