模型检查点文件保存方法、装置、设备及存储介质
摘要:
本申请公开了一种模型检查点文件保存方法、装置、设备及存储介质,本申请在确定需要保存检查点checkpoint文件时,为了避免单节点网卡或磁盘IO拥塞问题,引入了负载均衡机制,将模型分割后的各个部分的checkpoint文件保存任务分散到多个不同的设备节点上,控制不同的设备节点采用并行处理的方式执行本设备节点的checkpoint文件保存任务,这样可以充分利用各设备节点的资源,避免单节点网卡或磁盘IO拥塞,提高保存效率。
0/0