-
公开(公告)号:CN118672476A
公开(公告)日:2024-09-20
申请号:CN202310246286.0
申请日:2023-03-14
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提出了用于基于多层存储的模型检查点保存的方法、装置和计算机可读介质。可以在通过目标节点中的图形处理器(GPU)来执行机器学习模型的训练期间,从与所述GPU直接交换数据的GPU存储器中识别所述机器学习模型的待保存的检查点。可以将所述检查点从所述GPU存储器保存到与所述目标节点中的中央处理器(CPU)直接交换数据的CPU存储器中。可以将所述检查点从所述CPU存储器保存到非暂时性存储器中,所述非暂时性存储器包括以下至少之一:位于所述目标节点中的本地非暂时性存储器、位于所述目标节点的邻居节点中的邻居非暂时性存储器和位于所述目标节点远端的远端非暂时性存储器。