一种基于GraphX的分布式幂迭代聚类方法和装置

    公开(公告)号:CN107480685B

    公开(公告)日:2021-02-23

    申请号:CN201610402954.4

    申请日:2016-06-08

    Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。

    一种基于GraphX的分布式幂迭代聚类方法和装置

    公开(公告)号:CN107480685A

    公开(公告)日:2017-12-15

    申请号:CN201610402954.4

    申请日:2016-06-08

    Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。

Patent Agency Ranking