MapReduce计算框架中的高性能排序方法

    公开(公告)号:CN103995827B

    公开(公告)日:2017-08-04

    申请号:CN201410145069.3

    申请日:2014-04-10

    Applicant: 北京大学

    Abstract: 本发明涉及一种MapReduce计算框架中的高性能排序方法。该方法在Map阶段按照partition分别构建缓冲链,移除partition本身进行排序的需要,并且对于每一个partition数据将按照块进行组织,降低了数据在内存中的拷贝以及文件IO方面的代价;在Map阶段不执行排序操作,在Reduce阶段以一个较大的缓冲池作为一次排序的基本单位,使得在排序的归并阶段总的归并路数是一个用户可调优的值。本发明通过一种混合的内存排序算法,优化了MapReduce框架中排序的两个阶段,基本消除了排序对于计算框架的性能影响,进而提升了计算框架的资源有效性,降低了集群的整体资源消耗。

    MapReduce计算框架中的高性能排序方法

    公开(公告)号:CN103995827A

    公开(公告)日:2014-08-20

    申请号:CN201410145069.3

    申请日:2014-04-10

    Applicant: 北京大学

    CPC classification number: G06F17/30094 G06F3/067 G06F17/30194

    Abstract: 本发明涉及一种MapReduce计算框架中的高性能排序方法。该方法在Map阶段按照partition分别构建缓冲链,移除partition本身进行排序的需要,并且对于每一个partition数据将按照块进行组织,降低了数据在内存中的拷贝以及文件IO方面的代价;在Map阶段不执行排序操作,在Reduce阶段以一个较大的缓冲池作为一次排序的基本单位,使得在排序的归并阶段总的归并路数是一个用户可调优的值。本发明通过一种混合的内存排序算法,优化了MapReduce框架中排序的两个阶段,基本消除了排序对于计算框架的性能影响,进而提升了计算框架的资源有效性,降低了集群的整体资源消耗。

Patent Agency Ranking