-
公开(公告)号:CN103077253A
公开(公告)日:2013-05-01
申请号:CN201310047023.3
申请日:2013-01-25
Applicant: 西安电子科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种Hadoop框架下高维海量数据GMM聚类方法,主要针对已有聚类算法的不足,将海量数据的聚类问题架构在分布式平台上,用于高维、海量数据的聚类。其实现步骤是:1、组建局域网;2、建立Hadoop平台;3、上传数据到集群;4、初始聚类;5、计算各聚类的参数和判别函数;6、判断聚类是否完成;7、重新聚类;8、计算新聚类中每一个类的均值、权重;9、计算新聚类中每一个类的方差;10、输出聚类结果。本发明利用Hadoop框架中MapReduce运算模型的特点,对聚类中的可并行部分用Map并行方法处理,计算均值和方差时采用两个Map/Reduce分别计算,可以高效、精确的聚类,有较强的可扩展性和容错性。
-
公开(公告)号:CN103077253B
公开(公告)日:2015-09-30
申请号:CN201310047023.3
申请日:2013-01-25
Applicant: 西安电子科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种Hadoop框架下高维海量数据GMM聚类方法,主要针对已有聚类算法的不足,将海量数据的聚类问题架构在分布式平台上,用于高维、海量数据的聚类。其实现步骤是:1、组建局域网;2、建立Hadoop平台;3、上传数据到集群;4、初始聚类;5、计算各聚类的参数和判别函数;6、判断聚类是否完成;7、重新聚类;8、计算新聚类中每一个类的均值、权重;9、计算新聚类中每一个类的方差;10、输出聚类结果。本发明利用Hadoop框架中MapReduce运算模型的特点,对聚类中的可并行部分用Map并行方法处理,计算均值和方差时采用两个Map/Reduce分别计算,可以高效、精确的聚类,有较强的可扩展性和容错性。
-