-
公开(公告)号:CN105117286B
公开(公告)日:2018-06-12
申请号:CN201510607579.2
申请日:2015-09-22
Applicant: 北京大学
IPC: G06F9/48
Abstract: 本发明公布一种MapReduce系统中的任务调度方法和流水化执行方法,将有依赖关系的任务根据依赖关系和优先程度进行任务调度,使得有依赖关系的任务之间的执行重叠最大化:任务之间的依赖关系用DAG关系图表示,根据关键路径算法获得关键任务,通过流水化任务执行方法执行当前任务运行队列中的任务:执行上游map任务;进入上游reduce阶段;当输出第一个block时启动下游map阶段,分发一个map任务,同时设置下游任务map数量为最大数值;上游任务完成时设置下游任务map数量为正确数值;下游任务继续执行map任务和reduce阶段至执行完成。本发明方法可提高系统的资源利用率和程序的执行效率,提升系统运行性能。
-
公开(公告)号:CN102799486A
公开(公告)日:2012-11-28
申请号:CN201210205841.7
申请日:2012-06-18
Applicant: 北京大学
Abstract: 本发明涉及一种MapReduce系统中的数据采样和划分方法,其步骤包括:1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。在存在数据倾斜的应用场景下,本发明可以较大幅度地提高整个MapReduce任务的执行效率,本发明的数据采样和划分算法对于原有MapReduce系统带来的额外开销较小,在数据分布比较均匀的应用场景下基本上不影响原系统的执行效率。
-
公开(公告)号:CN105117286A
公开(公告)日:2015-12-02
申请号:CN201510607579.2
申请日:2015-09-22
Applicant: 北京大学
IPC: G06F9/48
Abstract: 本发明公布一种MapReduce系统中的任务调度方法和流水化执行方法,将有依赖关系的任务根据依赖关系和优先程度进行任务调度,使得有依赖关系的任务之间的执行重叠最大化:任务之间的依赖关系用DAG关系图表示,根据关键路径算法获得关键任务,通过流水化任务执行方法执行当前任务运行队列中的任务:执行上游map任务;进入上游reduce阶段;当输出第一个block时启动下游map阶段,分发一个map任务,同时设置下游任务map数量为最大数值;上游任务完成时设置下游任务map数量为正确数值;下游任务继续执行map任务和reduce阶段至执行完成。本发明方法可提高系统的资源利用率和程序的执行效率,提升系统运行性能。
-
公开(公告)号:CN102799486B
公开(公告)日:2014-11-26
申请号:CN201210205841.7
申请日:2012-06-18
Applicant: 北京大学
Abstract: 本发明涉及一种MapReduce系统中的数据采样和划分方法,其步骤包括:1)客户端向MapReduce系统中提交任务请求,所述MapReduce系统中的主控节点将Map任务划分成采样和普通任务,所述主控节点Master将采样任务优先下发到各个分节点Worker进行执行;2)根据各个分节点Worker上的Map采样任务筛选出样本集合,并将样本上传至主控节点Master进行合并;3)所述主控节点Master根据Map采样任务结果得到Reduce任务工作量,对Reduce任务划分键值区间,实现负载均衡,完成采样和划分。在存在数据倾斜的应用场景下,本发明可以较大幅度地提高整个MapReduce任务的执行效率,本发明的数据采样和划分算法对于原有MapReduce系统带来的额外开销较小,在数据分布比较均匀的应用场景下基本上不影响原系统的执行效率。
-
-
-