使用索引划分和协调来进行数据去重复

    公开(公告)号:CN102591946A

    公开(公告)日:2012-07-18

    申请号:CN201110445282.2

    申请日:2011-12-27

    Applicant: 微软公司

    Abstract: 本发明涉及使用索引划分和协调来进行数据去重复。所公开的主题涉及将散列索引服务的索引划分为子空间索引的数据去重复技术,其中少于整个散列索引服务的索引被高速缓存以节省存储器。该子空间索引被访问以确定数据块是否已经存在或需要被索引和存储。可基于与要索引的数据相关联的准则(诸如文件类型、数据类型、最后使用时间等)将该索引分成各个子空间。还描述了子空间协调,其中检测子空间中的重复条目以从该去重复系统中移除条目和块。子空间协调可在非高峰时间、当更多系统资源可用时执行,而如果需要资源则可中断协调。要协调的子空间可以基于相似度,包括签名的相似度,每个签名紧凑地表示该子空间的散列。

    数据中心互连系统
    4.
    发明授权

    公开(公告)号:CN102057631B

    公开(公告)日:2013-11-06

    申请号:CN200980122220.9

    申请日:2009-05-31

    Applicant: 微软公司

    CPC classification number: H04L45/24 H04L45/02 H04L45/28

    Abstract: 公开了用于商品化数据中心网络的系统。该系统包括用于数据中心的互连拓扑,该数据中心具有多个服务器和数据中心中的网络的多个节点,可以经过所述节点路由数据包。该系统使用这样的路由方案:路由不在意网络中的节点之间的流量模式,其中,该互连拓扑包含一个或多个服务器之间的多条路径。多径路由可以是Valiant负载平衡。它将负载平衡的功能解聚为一组常规服务器,结果,负载平衡服务器硬件可以在数据中心中的机架之间分布,导致更大的灵活性和较少的分段。该体系结构创建巨大且灵活的交换域,支持任何服务器/任何服务、全互联灵活性、以及低成本的未严加管制的服务器容量。

    使用辅助存储器的低RAM空间、高吞吐量的持久键值存储

    公开(公告)号:CN102436420A

    公开(公告)日:2012-05-02

    申请号:CN201110340513.3

    申请日:2011-10-20

    Applicant: 微软公司

    CPC classification number: G06F17/30949

    Abstract: 本发明涉及使用辅助存储器的低RAM空间、高吞吐量的持久键值存储。所描述地是使用闪存(或其他辅助存储)、基于RAM的数据结构和机制,仅用低的RAM空间占用量来访问存储在该闪存中的键值对。映射(例如,散列)函数将键值对映射至基于RAM的索引中的槽。槽包括指向闪存上各记录的桶的指针,这些记录各自都具有映射至该槽的键。例如用从最新近写入记录到最早写入记录的各指针来将各记录的桶安排成经线性链接的链表。还描述了将桶中的非连续记录压缩在单个闪存页面上,以及无用信息收集。另外描述了可减少桶大小的变化的负载平衡,该负载平衡使用每槽一个布隆过滤器来避免不必要的搜索,并且描述了将槽拆分成子槽。

    用于数据去重复的自适应索引

    公开(公告)号:CN102609442A

    公开(公告)日:2012-07-25

    申请号:CN201110448888.1

    申请日:2011-12-28

    Applicant: 微软公司

    CPC classification number: G06F17/30097 G06F17/3007 G06F17/30159

    Abstract: 本发明公开了用于数据去重复的自适应索引。根据本发明的一方面,其涉及数据去重复技术,其中散列索引服务的索引和/或索引操作是自适应的而平衡去重复性能节省、吞吐量和资源耗费。索引服务可采用使用对应于块尺寸的不同级别的分层分块、含有少于全部散列索引(或者子空间)的散列值的紧凑签名的经采样的紧凑索引表、和/或基于子空间的数据与另一个子空间的数据和/或传入的数据块的类似性的选择性的子空间索引。

    数据中心互连和流量工程

    公开(公告)号:CN102057631A

    公开(公告)日:2011-05-11

    申请号:CN200980122220.9

    申请日:2009-05-31

    Applicant: 微软公司

    CPC classification number: H04L45/24 H04L45/02 H04L45/28

    Abstract: 公开了用于商品化数据中心网络的系统。该系统包括用于数据中心的互连拓扑,该数据中心具有多个服务器和数据中心中的网络的多个节点,可以经过所述节点路由数据包。该系统使用这样的路由方案:路由不在意网络中的节点之间的流量模式,其中,该互连拓扑包含一个或多个服务器之间的多条路径。多径路由可以是Valiant负载平衡。它将负载平衡的功能解聚为一组常规服务器,结果,负载平衡服务器硬件可以在数据中心中的机架之间分布,导致更大的灵活性和较少的分段。该体系结构创建巨大且灵活的交换域,支持任何服务器/任何服务、全互联灵活性、以及低成本的未严加管制的服务器容量。

Patent Agency Ranking