-
公开(公告)号:CN113568725A
公开(公告)日:2021-10-29
申请号:CN202110794626.4
申请日:2021-07-14
Applicant: 中国科学院计算技术研究所
IPC: G06F9/48
Abstract: 本发明提出一种深度学习作业优先级调度方法,包括:于任一作业调度周期内,获取GPU集群中所有可用GPU的预测工作参数,以及该GPU集群的等待队列中所有作业的预测作业参数;以该预测工作参数和该预测作业参数预估每个作业的剩余执行时间;以任一作业的剩余执行时间与该作业的预估资源数量的乘积,作为该作业的作业面积;选取所有作业中具有作业面积最小值的作业,设置具有当前作业周期内的最高优先级。本发明还提出一种深度学习作业系统,以及一种数据处理装置。
-
公开(公告)号:CN113568725B
公开(公告)日:2024-11-22
申请号:CN202110794626.4
申请日:2021-07-14
Applicant: 中国科学院计算技术研究所
IPC: G06F9/48
Abstract: 本发明提出一种深度学习作业优先级调度方法,包括:于任一作业调度周期内,获取GPU集群中所有可用GPU的预测工作参数,以及该GPU集群的等待队列中所有作业的预测作业参数;以该预测工作参数和该预测作业参数预估每个作业的剩余执行时间;以任一作业的剩余执行时间与该作业的预估资源数量的乘积,作为该作业的作业面积;选取所有作业中具有作业面积最小值的作业,设置具有当前作业周期内的最高优先级。本发明还提出一种深度学习作业系统,以及一种数据处理装置。
-
公开(公告)号:CN113504966A
公开(公告)日:2021-10-15
申请号:CN202110690973.2
申请日:2021-06-22
Applicant: 中国科学院计算技术研究所
IPC: G06F9/455
Abstract: 本发明提出一种GPU集群调度策略模拟方法,包括:获取模拟GPU集群的集群参数、拟执行的工作负载及对应的调度策略;基于该调度策略,获取该工作负载完成无故障运行的预测时间;根据该集群参数和该预测时间,设定该模拟GPU集群的模拟故障参数;以该调度策略及该模拟故障参数进行该工作负载的故障工作模拟,获取该工作负载在故障工作状态时的运行数据。本发明还提出一种GPU集群模拟器,及一种实现GPU集群调度策略模拟数据处理装置。
-
公开(公告)号:CN119759359A
公开(公告)日:2025-04-04
申请号:CN202411832315.2
申请日:2024-12-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种基于跨异构编程模型的模板优化方法,包括:获取调优需求参数;根据预定的调优策略和所述调优需求信息,有方向性地生成调优参数种群;根据预定的遗传算法对所述调优参数种群进行搜索,多次迭代搜索直至达到收敛条件,生成对应的优化参数设置;根据预定的模板算子和所述优化参数设置,自动生成优化代码。本发明还提供一种基于跨异构编程模型的模板优化装置、存储介质及电子设备。借此,本发明能够实现基于跨异构编程模型的模板计算自动调优,不仅对于不同硬件平台均能取得较好的模板计算优化效果,而且对不同模式的模板也能找到最适用的优化技术组合。
-
公开(公告)号:CN113504966B
公开(公告)日:2023-10-31
申请号:CN202110690973.2
申请日:2021-06-22
Applicant: 中国科学院计算技术研究所
IPC: G06F9/455
Abstract: 本发明提出一种GPU集群调度策略模拟方法,包括:获取模拟GPU集群的集群参数、拟执行的工作负载及对应的调度策略;基于该调度策略,获取该工作负载完成无故障运行的预测时间;根据该集群参数和该预测时间,设定该模拟GPU集群的模拟故障参数;以该调度策略及该模拟故障参数进行该工作负载的故障工作模拟,获取该工作负载在故障工作状态时的运行数据。本发明还提出一种GPU集群模拟器,及一种实现GPU集群调度策略模拟数据处理装置。
-
公开(公告)号:CN116866351A
公开(公告)日:2023-10-10
申请号:CN202310639528.2
申请日:2023-06-01
Applicant: 中国科学院计算技术研究所
IPC: H04L67/1008 , H04L67/1012 , H04L67/60 , G06N3/092
Abstract: 本发明提出一种基于强化学习的云计算作业可共置执行方法,包括:以神经网络构建策略模型,设置该策略模型的强化学习参数,基于云计算任务的单个作业和组合作业,对该策略模型进行强化学习训练;生成该云计算任务的批作业,通过该策略模型获取该批作业的执行策略,并根据该执行策略,将该批作业进行分配并执行。本发明还提出一种基于强化学习的云计算作业可共置执行系统,以及一种用于云计算作业可共置执行的数据处理装置。
-
-
-
-
-