基于数据相似的平衡聚类压缩方法

    公开(公告)号:CN101464910B

    公开(公告)日:2011-08-17

    申请号:CN200910095378.3

    申请日:2009-01-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据相似的聚类压缩方法。本发明通过分析文件数据,从文件提取特征指纹构造特征向量,用于计算数据相似度,并利用带约束条件的图分割方法聚类输入文件集成多个均匀大小的类别,然后采用BMCOM等压缩方法对每个类别单独进行压缩,以去除类内部的冗余数据。本发明利用基于数据采样聚类方式,把具有较高可压缩性的关键数据作为样本数据,首先对样本数据进行聚类,然后通过稳定婚姻方法归类剩余数据,在不降低压缩效果的情况下可提高聚类效率。本发明可以作为一种压缩和归档方法应用到分布式存储系统中,能够克服已有方法的数据依赖和负载不均问题。

    基于数据相似的平衡聚类压缩方法

    公开(公告)号:CN101464910A

    公开(公告)日:2009-06-24

    申请号:CN200910095378.3

    申请日:2009-01-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据相似的聚类压缩方法。本发明通过分析文件数据,从文件提取特征指纹构造特征向量,用于计算数据相似度,并利用带约束条件的图分割方法聚类输入文件集成多个均匀大小的类别,然后采用BMCOM等压缩方法对每个类别单独进行压缩,以去除类内部的冗余数据。本发明利用基于数据采样聚类方式,把具有较高可压缩性的关键数据作为样本数据,首先对样本数据进行聚类,然后通过稳定婚姻方法归类剩余数据,在不降低压缩效果的情况下可提高聚类效率。本发明可以作为一种压缩和归档方法应用到分布式存储系统中,能够克服已有方法的数据依赖和负载不均问题。

Patent Agency Ranking