-
公开(公告)号:CN111061565B
公开(公告)日:2023-08-25
申请号:CN201911292796.1
申请日:2019-12-12
Applicant: 湖南大学
Abstract: 本发明公开了一种Spark环境下的两段式流水线任务调度方法及系统。所述方法包括以下阶段:网络空闲阶段任务调度,该阶段为共生任务及等待任务分配CPU资源,当正在运行的任务有共生任务时,在其执行完成后,将其占用的CPU资源分配给其共生任务;否则,在其执行完成后,按照Spark环境优先级的调度将其占用的CPU资源分配给相应等待任务;网络需求阶段任务调度,该阶段为正在运行的任务匹配数据拉取时间大于其剩余完成时间的等待任务作为共生任务,并对共生任务进行调度。所述系统,其包括网络空闲阶段任务调度模块和网络需求阶段任务调度模块。本发明实现流水线作业,能够实现提高CPU资源及网络资源利用率、从而有效地减少了资源的空闲时间和job的完成时间。
-
公开(公告)号:CN110928666B
公开(公告)日:2022-03-22
申请号:CN201911247293.2
申请日:2019-12-09
Applicant: 湖南大学
IPC: G06F9/48
Abstract: 本发明公开了一种Spark环境中基于内存优化任务并行度的方法,首先提出一种基于RDD的Spark执行引擎分析获取每个调度任务需要处理的数据量的过程,来预估确定每个任务需要的内存资源;其次,提出一种结合每个任务的输入数据量以及从节点现有的内存资源来预测从节点可以并发执行的任务数,考虑了Spark任务调度的本地化原则,使得预测的并发数符合实际调度情况,提高调度效率;最后,提出一种基于已经执行的任务内存反馈,使用AIMD算法动态自适应调整每个从节点的最佳任务并发数,弥补了静态预测的不足,使得任务调度最大限度的符合从节点现有的资源,有效的提高资源使用率以及运行性能。
-
公开(公告)号:CN110232087B
公开(公告)日:2021-08-17
申请号:CN201910460745.9
申请日:2019-05-30
Applicant: 湖南大学
IPC: G06F16/25
Abstract: 本申请涉及一种大数据增量迭代方法、装置、计算机设备和存储介质。一个实施例中的方法包括:接收由图形处理器执行的有向无环图任务,获取与有向无环图任务对应的数据集,将数据集存储至图形处理器内存中的缓存;响应所述有向无环图任务,对数据集进行迭代计算,得到迭代计算后的数据集,并以迭代计算后的数据集对所述缓存中存储的数据集进行更新;当数据集发生增量变化时,基于缓存中存储的迭代计算后的数据集进行增量迭代计算,得到增量迭代后的数据集,以增量迭代后的数据集对所述缓存中的数据集进行更新。可以隐藏低带宽的输入/输出延迟,减少重复计算,从而减少计算总时间,提高大数据处理效率。
-
公开(公告)号:CN110955526B
公开(公告)日:2022-10-21
申请号:CN201911296432.0
申请日:2019-12-16
Applicant: 湖南大学
IPC: G06F9/50
Abstract: 本发明公开了一种用于在分布式异构环境下实现多GPU调度的方法,其根据Java计算任务创建对应的GPU本地计算任务,并通过数据分块和任务分解,将GPU本地任务划分为更细粒度的GPU本地子任务,然后根据数据本地性以及从节点上所有GPU的流资源状态和内存资源状态将GPU本地子任务调度到指定GPU上执行,从而充分平衡各个GPU上的工作负载,降低Spark应用程序的执行时间。本发明能够解决现有分布式异构Spark处理框架中存在的吞吐量低、无法有效利用多个GPU、以及由于缺乏有效的GPU负载均衡策略导致的时间开销大的技术问题。
-
公开(公告)号:CN110928666A
公开(公告)日:2020-03-27
申请号:CN201911247293.2
申请日:2019-12-09
Applicant: 湖南大学
IPC: G06F9/48
Abstract: 本发明公开了一种Spark环境中基于内存优化任务并行度的方法,首先提出一种基于RDD的Spark执行引擎分析获取每个调度任务需要处理的数据量的过程,来预估确定每个任务需要的内存资源;其次,提出一种结合每个任务的输入数据量以及从节点现有的内存资源来预测从节点可以并发执行的任务数,考虑了Spark任务调度的本地化原则,使得预测的并发数符合实际调度情况,提高调度效率;最后,提出一种基于已经执行的任务内存反馈,使用AIMD算法动态自适应调整每个从节点的最佳任务并发数,弥补了静态预测的不足,使得任务调度最大限度的符合从节点现有的资源,有效的提高资源使用率以及运行性能。
-
公开(公告)号:CN110232087A
公开(公告)日:2019-09-13
申请号:CN201910460745.9
申请日:2019-05-30
Applicant: 湖南大学
IPC: G06F16/25
Abstract: 本申请涉及一种大数据增量迭代方法、装置、计算机设备和存储介质。一个实施例中的方法包括:接收由图形处理器执行的有向无环图任务,获取与有向无环图任务对应的数据集,将数据集存储至图形处理器内存中的缓存;响应所述有向无环图任务,对数据集进行迭代计算,得到迭代计算后的数据集,并以迭代计算后的数据集对所述缓存中存储的数据集进行更新;当数据集发生增量变化时,基于缓存中存储的迭代计算后的数据集进行增量迭代计算,得到增量迭代后的数据集,以增量迭代后的数据集对所述缓存中的数据集进行更新。可以隐藏低带宽的输入/输出延迟,减少重复计算,从而减少计算总时间,提高大数据处理效率。
-
公开(公告)号:CN115908916A
公开(公告)日:2023-04-04
申请号:CN202211443275.3
申请日:2022-11-17
Applicant: 湖南大学
IPC: G06V10/764 , G06V10/774 , G06N3/084 , G06N3/04
Abstract: 本发明公开了一种基于分布式深度学习的商品图像识别方法,包括步骤:主节点获取多个商品图片{p0,p1,...,pn‑1},并将所有商品图片平均分配给所有从节点,第i个从节点根据所需识别所有商品图片对应的图片序号集合Assignmenti,对图片序号集合对应的每个商品图片重新设置长宽大小,并经过标准化处理后,得到该商品图片对应的张量T,所有商品图片对应的张量共同构成张量集合{Ti},第i个从节点将步骤(2)得到的所有商品图片对应的张量集合{Ti}中的所有张量依次输入训练好的深度神经网络模型中,以得到识别结果集合{resi},并将识别结果集合{resi}发送至主节点,识别结果集合{resi}中的每个元素均为二元组(index,class),本发明能够解决利用深度学习进行图片分类对设备要求门槛高的技术问题。
-
公开(公告)号:CN110955732B
公开(公告)日:2020-12-01
申请号:CN201911294970.6
申请日:2019-12-16
Applicant: 湖南大学
Abstract: 本发明公开了一种用于在Spark环境中实现分区负载均衡的方法,包括:接收用户发送的Spark应用程序,对该Spark应用程序进行解析,以得到表征多个弹性分布式数据集RDD之间关系的RDD图、以及调度阶段的有向无环图DAG,根据DAG图依次确定每两个相邻调度阶段之间的依赖关系,并对得到的所有依赖关系中的宽依赖关系进行编号,设置计数器cnt=1,判断cnt是否大于宽依赖关系的总数,如果不是则对第cnt个宽依赖关系对应的Map端中最后一个RDD中的所有分区中的数据进行采样,以得到表征数据键分布的、每个分区对应的哈希表,将得到的所有分区对应的哈希表进行合并。本发明能够在解决大数据计算中数据倾斜问题的同时,优化计算资源的分配,缩短程序运行时间。
-
公开(公告)号:CN111061565A
公开(公告)日:2020-04-24
申请号:CN201911292796.1
申请日:2019-12-12
Applicant: 湖南大学
Abstract: 本发明公开了一种Spark环境下的两段式流水线任务调度方法及系统。所述方法包括以下阶段:网络空闲阶段任务调度,该阶段为共生任务及等待任务分配CPU资源,当正在运行的任务有共生任务时,在其执行完成后,将其占用的CPU资源分配给其共生任务;否则,在其执行完成后,按照Spark环境优先级的调度将其占用的CPU资源分配给相应等待任务;网络需求阶段任务调度,该阶段为正在运行的任务匹配数据拉取时间大于其剩余完成时间的等待任务作为共生任务,并对共生任务进行调度。所述系统,其包括网络空闲阶段任务调度模块和网络需求阶段任务调度模块。本发明实现流水线作业,能够实现提高CPU资源及网络资源利用率、从而有效地减少了资源的空闲时间和job的完成时间。
-
公开(公告)号:CN110955732A
公开(公告)日:2020-04-03
申请号:CN201911294970.6
申请日:2019-12-16
Applicant: 湖南大学
Abstract: 本发明公开了一种用于在Spark环境中实现分区负载均衡的方法,包括:接收用户发送的Spark应用程序,对该Spark应用程序进行解析,以得到表征多个弹性分布式数据集RDD之间关系的RDD图、以及调度阶段的有向无环图DAG,根据DAG图依次确定每两个相邻调度阶段之间的依赖关系,并对得到的所有依赖关系中的宽依赖关系进行编号,设置计数器cnt=1,判断cnt是否大于宽依赖关系的总数,如果不是则对第cnt个宽依赖关系对应的Map端中最后一个RDD中的所有分区中的数据进行采样,以得到表征数据键分布的、每个分区对应的哈希表,将得到的所有分区对应的哈希表进行合并。本发明能够在解决大数据计算中数据倾斜问题的同时,优化计算资源的分配,缩短程序运行时间。
-
-
-
-
-
-
-
-
-