-
公开(公告)号:CN105760222A
公开(公告)日:2016-07-13
申请号:CN201410795479.2
申请日:2014-12-18
Applicant: 北京神州泰岳软件股份有限公司
IPC: G06F9/50
Abstract: 本发明实施例公开了一种基于MapReduce的平均值计算方法及装置,该方法包括:将待处理大数据按照设定规则进行分组,并为每组的大数据添加一个组Key;将分组后的大数据分配给预先设置的至少一个Map任务;调用每个Map任务将分配到的大数据以行为单位进行处理,得到携带组Key的输出值,所述输出值包括对应行的大数据的处理值和数量;按照组Key将每个Map任务处理后的输出值分配给Reduce任务,组Key与Reduce任务一一对应;调用每个Reduce任务根据分配到的输出值计算对应组Key的大数据的平均值。该方案避免了严重失真的问题。