一种流水化数据洗牌传输的Spark任务调度与执行方法

    公开(公告)号:CN105718244A

    公开(公告)日:2016-06-29

    申请号:CN201610029211.7

    申请日:2016-01-18

    CPC classification number: G06F9/3869

    Abstract: 本发明公开了一种流水化数据洗牌传输的Spark任务调度与执行方法,从后向前提交并执行阶段和其中的任务,同时采用前驱任务发送执行结果到后继任务的内存,在不改变用户接口,不破坏阶段的完整性和容错性的同时,解决了原本Spark在不同阶段(Stage)中洗牌数据传输(Shuffle)的磁盘读写开销,从而降低了分布式计算程序在Spark上的运行时间。

    一种流水化数据洗牌传输的Spark任务调度与执行方法

    公开(公告)号:CN105718244B

    公开(公告)日:2018-01-12

    申请号:CN201610029211.7

    申请日:2016-01-18

    Abstract: 本发明公开了一种流水化数据洗牌传输的Spark任务调度与执行方法,从后向前提交并执行阶段和其中的任务,同时采用前驱任务发送执行结果到后继任务的内存,在不改变用户接口,不破坏阶段的完整性和容错性的同时,解决了原本Spark在不同阶段(Stage)中洗牌数据传输(Shuffle)的磁盘读写开销,从而降低了分布式计算程序在Spark上的运行时间。

Patent Agency Ranking