-
公开(公告)号:CN115357369B
公开(公告)日:2023-03-24
申请号:CN202211290188.9
申请日:2022-10-21
Applicant: 之江实验室
Abstract: 本发明公开了一种k8s容器云平台中CRD应用集成调用方法与装置,基于k8s的CRD模块,定义容器应用资源对象,包括控制信息和资源信息;构建其他CRD资源注册机制,注册其他CRD资源信息,并保存对其控制器信息,刷新并读取控制器信息,通过反射的方式运行其他CRD资源的控制器,使得用于运行控制器的最小单元上,能够运行多个其他CRD资源的控制器;将控制器部署到K8s中,用户提交控制信息和已注册的其他CRD资源的资源信息,系统根据控制信息执行控制逻辑,根据资源信息提交相应计算任务到k8s容器云平台中,已注册的其他CRD资源的控制器对计算任务进行处理;从而达到减少了资源的占用的目的。
-
公开(公告)号:CN116542324B
公开(公告)日:2023-10-10
申请号:CN202310821100.X
申请日:2023-07-06
Applicant: 之江实验室
Abstract: 本发明提供了一种面向智能计算的分布式异步规约方法和装置,充分利用计计算集群内部的CPU和GPU异构计算资源,GPU只负责梯度计算,将参数更新和梯度规约卸载到CPU上执行。通过全局参数的训练迭代次序更新、全局参数的训练迭代次序同步、全局梯度同步这三个部分完成所有GPU之间的梯度更新和参数计算。有效提升了分布式训练中的通信和计算的并行性,提升了分布式训练的系统效率和性能。
-
公开(公告)号:CN116542324A
公开(公告)日:2023-08-04
申请号:CN202310821100.X
申请日:2023-07-06
Applicant: 之江实验室
Abstract: 本发明提供了一种面向智能计算的分布式异步规约方法和装置,充分利用计计算集群内部的CPU和GPU异构计算资源,GPU只负责梯度计算,将参数更新和梯度规约卸载到CPU上执行。通过全局参数的训练迭代次序更新、全局参数的训练迭代次序同步、全局梯度同步这三个部分完成所有GPU之间的梯度更新和参数计算。有效提升了分布式训练中的通信和计算的并行性,提升了分布式训练的系统效率和性能。
-
公开(公告)号:CN115357369A
公开(公告)日:2022-11-18
申请号:CN202211290188.9
申请日:2022-10-21
Applicant: 之江实验室
Abstract: 本发明公开了一种k8s容器云平台中CRD应用集成调用方法与装置,基于k8s的CRD模块,定义容器应用资源对象,包括控制信息和资源信息;构建其他CRD资源注册机制,注册其他CRD资源信息,并保存对其控制器信息,刷新并读取控制器信息,通过反射的方式运行其他CRD资源的控制器,使得用于运行控制器的最小单元上,能够运行多个其他CRD资源的控制器;将控制器部署到K8s中,用户提交控制信息和已注册的其他CRD资源的资源信息,系统根据控制信息执行控制逻辑,根据资源信息提交相应计算任务到k8s容器云平台中,已注册的其他CRD资源的控制器对计算任务进行处理;从而达到减少了资源的占用的目的。
-
-
-