基于参数计算和通信调度的分布式训练加速方法和系统

    公开(公告)号:CN116258197B

    公开(公告)日:2023-09-08

    申请号:CN202310545694.6

    申请日:2023-05-16

    Abstract: 基于参数计算和通信调度的分布式训练加速方法,包括:根据反向传播算法各层梯度之间不存在依赖关系的特点,通过调整梯度计算顺序,优先计算模型靠前层的梯度,从而提早梯度的传输时间,使得下轮该层的前向传播过程能够更早开始;对于梯度传输过程,通过动态枚举梯度拆分或融合阈值,并结合实时运行情况来选择性能最优的方案。还包括一种基于参数计算和通信调度的分布式训练加速系统。本发明增加了计算和通信之间的覆盖度,提升了训练性能,且实现上简单灵活,能够快速适配不同的模型及训练环境。

    基于GPU的任务调度方法、电子装置和存储介质

    公开(公告)号:CN117032937B

    公开(公告)日:2024-01-09

    申请号:CN202311271781.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种基于GPU的任务调度方法、电子装置和存储介质,其中,该任务调度方法包括:统计预设运行时间内调度器的GPU执行新任务时计算资源使用率超过计算资源平均使用率的时间占比和显存占用率超过显存平均占用率的时间占比;获取性能拐点显存占用率;据此划分新任务的类型并根据该类型和各执行器的GPU的运行任务数据,将新任务调度至匹配的执行器;执行前基于GPU运行状态、显存占用情况、新任务及正运行的任务的性能拐点显存占用率,分配GPU资源。通过本申请,解决了不具备优先级信息时GPU资源利用率低的问题,实现了在不具备任务优先级信息的情况下提高GPU资源利用率。(56)对比文件汤小春;符莹;樊雪枫.数据中心上异构资源的细粒度分配算法研究.西北工业大学学报.2020,(第03期),全文.

    基于GPU的任务调度方法、电子装置和存储介质

    公开(公告)号:CN117032937A

    公开(公告)日:2023-11-10

    申请号:CN202311271781.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种基于GPU的任务调度方法、电子装置和存储介质,其中,该任务调度方法包括:统计预设运行时间内调度器的GPU执行新任务时计算资源使用率超过计算资源平均使用率的时间占比和显存占用率超过显存平均占用率的时间占比;获取性能拐点显存占用率;据此划分新任务的类型并根据该类型和各执行器的GPU的运行任务数据,将新任务调度至匹配的执行器;执行前基于GPU运行状态、显存占用情况、新任务及正运行的任务的性能拐点显存占用率,分配GPU资源。通过本申请,解决了不具备优先级信息时GPU资源利用率低的问题,实现了在不具备任务优先级信息的情况下提高GPU资源利用率。

    一种数据调度方法、装置和计算机设备

    公开(公告)号:CN117032936B

    公开(公告)日:2024-02-06

    申请号:CN202311267177.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种数据调度方法、装置和计算机设备。所述方法包括:对TPU上的数据进行分块,将加载时间和卸载时间均相同的数据划分为同一数据块;基于数据块所对应的加载时间和卸载时间,得到数据调度模型的初始参数;基于每块TPU存储量的大小,得到数据块占用TPU数量的时间分布;根据数据块占用TPU数量的时间分布,计算资源消耗量;利用粒子群优化算法,对初始数据调度模型的参数进行优化训练,直至按照训练后的数据调度模型进行数据调度的资源消耗量,达到按照预设的最少的TPU数量计算得到的资源消耗量时,停止训练,得到完备数据调度模型;基于完备数据调度模型,对TPU上的数据块进行数据调度。采用本方法能够解决计算机的计算

    基于参数计算和通信调度的分布式训练加速方法和系统

    公开(公告)号:CN116258197A

    公开(公告)日:2023-06-13

    申请号:CN202310545694.6

    申请日:2023-05-16

    Abstract: 基于参数计算和通信调度的分布式训练加速方法,包括:根据反向传播算法各层梯度之间不存在依赖关系的特点,通过调整梯度计算顺序,优先计算模型靠前层的梯度,从而提早梯度的传输时间,使得下轮该层的前向传播过程能够更早开始;对于梯度传输过程,通过动态枚举梯度拆分或融合阈值,并结合实时运行情况来选择性能最优的方案。还包括一种基于参数计算和通信调度的分布式训练加速系统。本发明增加了计算和通信之间的覆盖度,提升了训练性能,且实现上简单灵活,能够快速适配不同的模型及训练环境。

    面向深度学习的分布式计算系统的作业调度方法和装置

    公开(公告)号:CN116755893B

    公开(公告)日:2023-11-17

    申请号:CN202311056655.6

    申请日:2023-08-22

    Abstract: 面向深度学习的分布式计算系统的作业调度方法和装置,包括:获取用户输入的作业信息,并存储在数据库中,作业信息包括作业优先级等,并根据作业信息维护一个作业优先级队列;获取集群中各节点的缓存信息;响应于接收到发起作业执行的请求,作业执行根据所述的优先级队列先后顺序执行,将所述作业调度到相应主机节点上执行,执行的结果存储到数据库中;响应于接收到模型更新作业的请求,在所述数据库中查询所述作业所需的数据,计算作业剩余结束时间,并将计算结果保存到数据库中;响应与接收到更新所述队列请求,在所述数据库中查询所需的数据,并根据所述数据更新所述队列。本发明较少依赖用户输入信息,有效提高作业执行时间预测精度。

    一种数据调度方法、装置和计算机设备

    公开(公告)号:CN117032936A

    公开(公告)日:2023-11-10

    申请号:CN202311267177.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种数据调度方法、装置和计算机设备。所述方法包括:对TPU上的数据进行分块,将加载时间和卸载时间均相同的数据划分为同一数据块;基于数据块所对应的加载时间和卸载时间,得到数据调度模型的初始参数;基于每块TPU存储量的大小,得到数据块占用TPU数量的时间分布;根据数据块占用TPU数量的时间分布,计算资源消耗量;利用粒子群优化算法,对初始数据调度模型的参数进行优化训练,直至按照训练后的数据调度模型进行数据调度的资源消耗量,达到按照预设的最少的TPU数量计算得到的资源消耗量时,停止训练,得到完备数据调度模型;基于完备数据调度模型,对TPU上的数据块进行数据调度。采用本方法能够解决计算机的计算资源消耗高的问题。

    面向深度学习的分布式计算系统的作业调度方法和装置

    公开(公告)号:CN116755893A

    公开(公告)日:2023-09-15

    申请号:CN202311056655.6

    申请日:2023-08-22

    Abstract: 面向深度学习的分布式计算系统的作业调度方法和装置,包括:获取用户输入的作业信息,并存储在数据库中,作业信息包括作业优先级等,并根据作业信息维护一个作业优先级队列;获取集群中各节点的缓存信息;响应于接收到发起作业执行的请求,作业执行根据所述的优先级队列先后顺序执行,将所述作业调度到相应主机节点上执行,执行的结果存储到数据库中;响应于接收到模型更新作业的请求,在所述数据库中查询所述作业所需的数据,计算作业剩余结束时间,并将计算结果保存到数据库中;响应与接收到更新所述队列请求,在所述数据库中查询所需的数据,并根据所述数据更新所述队列。本发明较少依赖用户输入信息,有效提高作业执行时间预测精度。

Patent Agency Ranking