-
公开(公告)号:CN118020060A
公开(公告)日:2024-05-10
申请号:CN202280060601.4
申请日:2022-05-17
Applicant: 微软技术许可有限责任公司
Abstract: 本公开内容提供了用于在云服务平台中的虚拟机处实现虚拟机级分散式服务管理的方法、装置和虚拟机。所述虚拟机可以包括在与目标服务相关联的虚拟机集合中。可以从所述云服务平台中的控制面接收指示与所述目标服务相关联的动作的、针对所述目标服务的动作执行请求,并且可以基于所述动作执行请求生成动作执行事件。替代地,可以从所述虚拟机集合中的第二虚拟机接收指示与所述目标服务相关联的动作的、针对所述目标服务的动作执行事件。所述动作执行事件可以在所述虚拟机集合中传播。在所述虚拟机处的所述动作的所述执行可以至少基于所述动作执行事件而被触发。
-
公开(公告)号:CN118672476A
公开(公告)日:2024-09-20
申请号:CN202310246286.0
申请日:2023-03-14
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提出了用于基于多层存储的模型检查点保存的方法、装置和计算机可读介质。可以在通过目标节点中的图形处理器(GPU)来执行机器学习模型的训练期间,从与所述GPU直接交换数据的GPU存储器中识别所述机器学习模型的待保存的检查点。可以将所述检查点从所述GPU存储器保存到与所述目标节点中的中央处理器(CPU)直接交换数据的CPU存储器中。可以将所述检查点从所述CPU存储器保存到非暂时性存储器中,所述非暂时性存储器包括以下至少之一:位于所述目标节点中的本地非暂时性存储器、位于所述目标节点的邻居节点中的邻居非暂时性存储器和位于所述目标节点远端的远端非暂时性存储器。
-