面向分布式强化学习训练的自适应资源管理方法及装置
摘要:
本发明实施例提供一种面向分布式强化学习训练的自适应资源管理方法及装置,该方法包括:有新增训练任务提交时,根据任务信息为新增训练任务赋予资源需求初始值;统计当前分布式集群资源供给剩余,判断是否需要派生新的资源;若是,则确定新增虚拟机的数量及配置,将新增虚拟机加入分布式集群,并根据预设任务排布流程排布新增训练任务;若否根据预设任务排布流程排布新增训练任务。本发明实施例提供的面向分布式强化学习训练的自适应资源管理方法及装置,通过在接收到新增训练任务后,根据分布式集群资源的剩余情况进行资源派生后进行任务排布或直接进行任务排布,实现了训练任务自动化部署,显著降低了分布式强化学习的资源使用成本和人力成本。
0/0