一种基于Spark的抗偏斜的数据分片方法

    公开(公告)号:CN108776698A

    公开(公告)日:2018-11-09

    申请号:CN201810584637.8

    申请日:2018-06-08

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于Spark的抗偏斜的数据分片方法,包括:步骤A:获取预估的中间数据的键簇分布以及Spark应用类型,再基于获取的键簇分布生成与Spark应用类型相匹配的分片策略;键簇为键相同的键值对集合,分片策略包括分别与无需排序、需排序的应用类型相对应的基于键簇重分配的哈希算法策略和基于键簇分割的范围分片算法策略;步骤B:利用生成的分片策略计算出Map输出数据中每个键值对的reduce索引号,再基于reduce索引号的大小顺序将键值对依次写入中间数据文件中。通过上述方法解决了Spark本身的抗偏斜机制问题,解决现有的Hash方法和Range方法无法处理分片偏斜的问题。

    Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质

    公开(公告)号:CN110263059B

    公开(公告)日:2021-05-11

    申请号:CN201910438036.0

    申请日:2019-05-24

    Applicant: 湖南大学

    Abstract: 本申请涉及一种Spark‑Streaming中间数据分区方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取Spark‑Streaming map任务输出的中间数据中的多个元素,基于蓄水池抽样算法,对多个元素进行抽样处理,得到抽样处理后的元素集群;通过时间序列预测方法对元素集群中元素对应的频率权重进行更新,对更新后的元素集群中各元素按照预设元素顺序进行排序;基于排序后的元素集群,通过动态规划方法求解数据分区对应的边界元素;根据边界元素对更新后的元素集群中的元素进行分区,以使分区处理后最大分区内的各个元素对应的频率权重之和最小。

    一种基于Spark的抗偏斜的数据分片方法

    公开(公告)号:CN108776698B

    公开(公告)日:2020-09-01

    申请号:CN201810584637.8

    申请日:2018-06-08

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于Spark的抗偏斜的数据分片方法,包括:步骤A:获取预估的中间数据的键簇分布以及Spark应用类型,再基于获取的键簇分布生成与Spark应用类型相匹配的分片策略;键簇为键相同的键值对集合,分片策略包括分别与无需排序、需排序的应用类型相对应的基于键簇重分配的哈希算法策略和基于键簇分割的范围分片算法策略;步骤B:利用生成的分片策略计算出Map输出数据中每个键值对的reduce索引号,再基于reduce索引号的大小顺序将键值对依次写入中间数据文件中。通过上述方法解决了Spark本身的抗偏斜机制问题,解决现有的Hash方法和Range方法无法处理分片偏斜的问题。

    Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质

    公开(公告)号:CN110263059A

    公开(公告)日:2019-09-20

    申请号:CN201910438036.0

    申请日:2019-05-24

    Applicant: 湖南大学

    Abstract: 本申请涉及一种Spark-Streaming中间数据分区方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取Spark-Streaming map任务输出的中间数据中的多个元素,基于蓄水池抽样算法,对多个元素进行抽样处理,得到抽样处理后的元素集群;通过时间序列预测方法对元素集群中元素对应的频率权重进行更新,对更新后的元素集群中各元素按照预设元素顺序进行排序;基于排序后的元素集群,通过动态规划方法求解数据分区对应的边界元素;根据边界元素对更新后的元素集群中的元素进行分区,以使分区处理后最大分区内的各个元素对应的频率权重之和最小。

    一种基于Spark框架的增量式频繁项集挖掘方法

    公开(公告)号:CN109739897A

    公开(公告)日:2019-05-10

    申请号:CN201811551301.8

    申请日:2018-12-18

    Applicant: 湖南大学

    Abstract: 本发明公开了一种基于Spark框架的增量式频繁项集挖掘方法,首先实现一种基于Spark的自适应并行Apriori算法,使用自适应算法来寻找具有更高精度和效率的频繁模式,可以有效解决传统Apriori算法在面对大规模数据时处理能力不足的问题。接着,在并行Apriori算法的基础上实现增量式Apriori算法,能够增量处理动态数据集,大幅减少参与计算的数据量,有效解决Apriori频繁项集挖掘方法的时效性问题。

Patent Agency Ranking