-
公开(公告)号:CN102567218A
公开(公告)日:2012-07-11
申请号:CN201110428343.4
申请日:2011-12-19
Applicant: 微软公司
IPC: G06F12/06
CPC classification number: G06F12/0261
Abstract: 本发明涉及用于数据去重复块存储的垃圾收集和热点释放。提供用于对存储中的未使用的数据块进行垃圾收集的技术。根据一种实现,基于对被指示为已删除的一个或多个流映射块的分析来标识存储在块容器中的未使用的数据块。所标识的数据块被指示为已删除。然后可回收由被指示为已删除的数据块填充的块容器中的存储空间。还提供用于选择性地备份数据块的技术。根据一种实现,数据块被接收以存储在块容器中。如果所接收的数据块在该块容器中的最多被引用的数据块的前预定百分比中并且具有大于预定引用阈值的引用数量,则将所接收的数据块的备份副本存储在备份容器中。
-
公开(公告)号:CN102591944A
公开(公告)日:2012-07-18
申请号:CN201110444139.1
申请日:2011-12-15
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30156
Abstract: 本公开涉及去重复的文件的部分召回。本公开针对将文件从完全去重复状态改为部分去重复状态,在部分去重复状态中,一些文件数据在块存储中去重复,而一些被召回到文件中,即文件的存储卷中。诸如在文件系统过滤器中的部分召回机制跟踪(例如,经由文件重解析点中的位图)文件数据是维护在块存储中还是已经被召回到文件。按需从块存储中召回数据并将其提交(例如,刷新)给文件。还描述了通过使用跟踪信息来确定文件的哪些部分已经去重复到块存储中以便避免其进一步去重复处理来使文件有效地返回到完全去重复状态。
-
公开(公告)号:CN102541751A
公开(公告)日:2012-07-04
申请号:CN201110385918.9
申请日:2011-11-17
Applicant: 微软公司
CPC classification number: G06F17/30082 , G06F17/30159
Abstract: 本发明涉及用于数据去重复的可缩放块存储。可以以流映射和数据块的形式将数据流存储在块存储中。可以将与数据流相对应的数据块存储在块容器中,并且与该数据流相对应的流映射可指向该块容器中的数据块。多个流映射可以被存储在流容器中,并且可以以重复数据块不存在的方式来指向块容器中的数据块。在此提供了用于定位相关数据块在这些块容器中的存储的技术、用于定位存储在块容器中的数据块的技术、用于以可增强定位性并减少碎片整理的定位方式来将数据流存储在块容器中的技术、以及用于重新组织块存储中的已存储数据流的技术。
-
公开(公告)号:CN102567218B
公开(公告)日:2015-08-05
申请号:CN201110428343.4
申请日:2011-12-19
Applicant: 微软公司
IPC: G06F12/06
CPC classification number: G06F12/0261
Abstract: 本发明涉及用于数据去重复块存储的垃圾收集和热点释放。提供用于对存储中的未使用的数据块进行垃圾收集的技术。根据一种实现,基于对被指示为已删除的一个或多个流映射块的分析来标识存储在块容器中的未使用的数据块。所标识的数据块被指示为已删除。然后可回收由被指示为已删除的数据块填充的块容器中的存储空间。还提供用于选择性地备份数据块的技术。根据一种实现,数据块被接收以存储在块容器中。如果所接收的数据块在该块容器中的最多被引用的数据块的前预定百分比中并且具有大于预定引用阈值的引用数量,则将所接收的数据块的备份副本存储在备份容器中。
-
公开(公告)号:CN102591944B
公开(公告)日:2014-10-29
申请号:CN201110444139.1
申请日:2011-12-15
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30156
Abstract: 本公开涉及去重复的文件的部分召回。本公开针对将文件从完全去重复状态改为部分去重复状态,在部分去重复状态中,一些文件数据在块存储中去重复,而一些被召回到文件中,即文件的存储卷中。诸如在文件系统过滤器中的部分召回机制跟踪(例如,经由文件重解析点中的位图)文件数据是维护在块存储中还是已经被召回到文件。按需从块存储中召回数据并将其提交(例如,刷新)给文件。还描述了通过使用跟踪信息来确定文件的哪些部分已经去重复到块存储中以便避免其进一步去重复处理来使文件有效地返回到完全去重复状态。
-
公开(公告)号:CN102567503A
公开(公告)日:2012-07-11
申请号:CN201110440182.0
申请日:2011-12-15
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30091 , G06F17/3007
Abstract: 本发明描述了用于数据去重复的可扩展流水线。本公开涉及由模块化数据去重复流水线的各阶段/模块执行的数据去重复(优化)。在每个阶段,流水线允许替换、选择或扩展模块,例如,不同的算法可被用于基于正被处理的数据的类型来进行分块化或压缩。此流水线便于安全的数据处理、批处理、和并行处理。流水线是可基于反馈调整的,例如,通过选择模块来提升去重复质量、性能和/或吞吐量。还描述了例如基于文件和/或文件数据集的属性和/或统计属性和/或内部或外部反馈来对文件进行选择、过滤、排名、排序和/或编组,以进行去重复。
-
公开(公告)号:CN102541751B
公开(公告)日:2015-02-25
申请号:CN201110385918.9
申请日:2011-11-17
Applicant: 微软公司
CPC classification number: G06F17/30082 , G06F17/30159
Abstract: 本发明涉及用于数据去重复的可缩放块存储。可以以流映射和数据块的形式将数据流存储在块存储中。可以将与数据流相对应的数据块存储在块容器中,并且与该数据流相对应的流映射可指向该块容器中的数据块。多个流映射可以被存储在流容器中,并且可以以重复数据块不存在的方式来指向块容器中的数据块。在此提供了用于定位相关数据块在这些块容器中的存储的技术、用于定位存储在块容器中的数据块的技术、用于以可增强定位性并减少碎片整理的定位方式来将数据流存储在块容器中的技术、以及用于重新组织块存储中的已存储数据流的技术。
-
公开(公告)号:CN102880663A
公开(公告)日:2013-01-16
申请号:CN201210320201.0
申请日:2012-08-31
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30159
Abstract: 本发明涉及部分去重复的文件的优化。本公开针对将具有至少一个未去重复的部分的文件变换成完全去重复的文件。针对所述至少一个未去重复部分中的每个,去重复机制在与所述至少一个未去重复部分相关联的文件偏移量之间定义至少一个块。与所述至少一个块相关联的块边界被存储在去重复元数据内。去重复机制使所述至少一个块与所述文件的至少一个去重复部分的块边界对齐。然后,所述至少一个块被提交给块存储。
-
公开(公告)号:CN102591946A
公开(公告)日:2012-07-18
申请号:CN201110445282.2
申请日:2011-12-27
Applicant: 微软公司
IPC: G06F17/30
CPC classification number: G06F17/30371 , G06F17/30156 , G06F17/30303 , G06F17/30327 , G06F17/3033 , G06F17/30489
Abstract: 本发明涉及使用索引划分和协调来进行数据去重复。所公开的主题涉及将散列索引服务的索引划分为子空间索引的数据去重复技术,其中少于整个散列索引服务的索引被高速缓存以节省存储器。该子空间索引被访问以确定数据块是否已经存在或需要被索引和存储。可基于与要索引的数据相关联的准则(诸如文件类型、数据类型、最后使用时间等)将该索引分成各个子空间。还描述了子空间协调,其中检测子空间中的重复条目以从该去重复系统中移除条目和块。子空间协调可在非高峰时间、当更多系统资源可用时执行,而如果需要资源则可中断协调。要协调的子空间可以基于相似度,包括签名的相似度,每个签名紧凑地表示该子空间的散列。
-
-
-
-
-
-
-
-