-
公开(公告)号:CN105354246B
公开(公告)日:2018-11-02
申请号:CN201510670867.2
申请日:2015-10-13
Applicant: 华南理工大学
IPC: G06F17/30
Abstract: 本发明公开的一种基于分布式内存计算的数据去重方法,包含以下顺序的步骤:创建文件分块指纹集并缓存到分布式内存中;按照最优的文件块划分策略对文件进行分块,并完成分块指纹计算,同内存中缓存的指纹集对比,找到匹配的分块,为其添加对应引用;分块指纹集的存储采用多级缓存策略,权值大的缓存到内存中,权值小的缓存到磁盘上;内存分为多个区域,存储不同类型的指纹信息,以对文件进行不同的指纹对比操作。本发明的数据去重方法,提高海量数据去重的效率,从而节省主机空间和网络带宽,为服务商降低数据运维的成本。
-
公开(公告)号:CN104932956A
公开(公告)日:2015-09-23
申请号:CN201510350060.0
申请日:2015-06-19
Applicant: 华南理工大学
IPC: G06F11/14
Abstract: 本发明公开的一种面向大数据的云容灾备份方法,包含以下步骤:建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份,同时将文件块指纹传输给私有云存储系统;私有云建立文件块指纹索引数据库,通过MapReduce任务比对哈希指纹来对传输块进行初步去重,对数据块进行细粒度的基于内容的再次分块哈希,通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布,统计数据块的访问热度,并将指纹索引数据库与热数据缓存在存储前段,将冷数据以及归档备份数据集中存储并建立版本快照,定时备份在公有云存储系统。本发明的方法,通过缓存指纹库和热数据解决了传统容灾备份中的数据去重技术实时性较差等问题。
-
公开(公告)号:CN104932956B
公开(公告)日:2018-02-27
申请号:CN201510350060.0
申请日:2015-06-19
Applicant: 华南理工大学
IPC: G06F11/14
Abstract: 本发明公开的一种面向大数据的云容灾备份方法,包含以下步骤:建立文件块哈希指纹和快照指针实现对文件不同版本的压缩存储备份,同时将文件块指纹传输给私有云存储系统;私有云建立文件块指纹索引数据库,通过MapReduce任务比对哈希指纹来对传输块进行初步去重,对数据块进行细粒度的基于内容的再次分块哈希,通过另一个MapReduce子任务计算数据块的相似度矩阵和块指针分布,统计数据块的访问热度,并将指纹索引数据库与热数据缓存在存储前段,将冷数据以及归档备份数据集中存储并建立版本快照,定时备份在公有云存储系统。本发明的方法,通过缓存指纹库和热数据解决了传统容灾备份中的数据去重技术实时性较差等问题。
-
公开(公告)号:CN105354246A
公开(公告)日:2016-02-24
申请号:CN201510670867.2
申请日:2015-10-13
Applicant: 华南理工大学
IPC: G06F17/30
CPC classification number: G06F17/30303 , G06F17/30386
Abstract: 本发明公开的一种基于分布式内存计算的数据去重方法,包含以下顺序的步骤:创建文件分块指纹集并缓存到分布式内存中;按照最优的文件块划分策略对文件进行分块,并完成分块指纹计算,同内存中缓存的指纹集对比,找到匹配的分块,为其添加对应引用;分块指纹集的存储采用多级缓存策略,权值大的缓存到内存中,权值小的缓存到磁盘上;内存分为多个区域,存储不同类型的指纹信息,以对文件进行不同的指纹对比操作。本发明的数据去重方法,提高海量数据去重的效率,从而节省主机空间和网络带宽,为服务商降低数据运维的成本。
-
-
-