-
公开(公告)号:CN117063159A
公开(公告)日:2023-11-14
申请号:CN202280022093.0
申请日:2022-02-25
Applicant: 微软技术许可有限责任公司
IPC: G06F9/50
Abstract: 本文中的公开内容描述了深度学习训练(DLT)作业从在源节点与目的地节点之间的检查点状态的平台级迁移。检查点设置是通过捕获GPU状态(例如,设备状态)和CPU状态(例如,主机状态)来执行的。GPU状态包括位于GPU和GPU上下文(例如,GPU中的默认流、由库创建的各种句柄)中的GPU数据(例如,模型参数、优化器状态等)。在目的地节点上恢复DLT作业涉及处于相同检查点状态的目的地GPU的处理的恢复。
-
公开(公告)号:CN107548549A
公开(公告)日:2018-01-05
申请号:CN201680025482.3
申请日:2016-04-15
Applicant: 微软技术许可有限责任公司
Abstract: 在各种实现方式中,提供了分布式计算环境中的资源平衡方法和系统。接收客户端定义的资源度量,其表示云计算平台的节点资源。生成用于服务应用的作业实例的布置计划。布置计划包括可执行以实现作业实例在节点上的目标布置的一个或多个移动。确定布置计划符合布置规则。每个布置规则指示作业实例中的给定作业实例是否适合布置在节点中的给定节点上。基于确定作业实例的目标布置基于由客户端定义的资源度量所表示的资源改善了跨越云计算平台的节点的资源平衡,来执行布置计划。
-
公开(公告)号:CN107548549B
公开(公告)日:2021-02-02
申请号:CN201680025482.3
申请日:2016-04-15
Applicant: 微软技术许可有限责任公司
Abstract: 在各种实现方式中,提供了分布式计算环境中的资源平衡方法和系统。接收客户端定义的资源度量,其表示云计算平台的节点资源。生成用于服务应用的作业实例的布置计划。布置计划包括可执行以实现作业实例在节点上的目标布置的一个或多个移动。确定布置计划符合布置规则。每个布置规则指示作业实例中的给定作业实例是否适合布置在节点中的给定节点上。基于确定作业实例的目标布置基于由客户端定义的资源度量所表示的资源改善了跨越云计算平台的节点的资源平衡,来执行布置计划。
-
-