基于规模可变强化学习的异构集群虚拟机重放置方法及装置

    公开(公告)号:CN118227267A

    公开(公告)日:2024-06-21

    申请号:CN202410434383.7

    申请日:2024-04-11

    Inventor: 林伟伟 王新华

    Abstract: 本发明公开了一种基于规模可变强化学习的异构集群虚拟机重放置方法,包括:首先采集集群运行时状态和服务质量数据,随后通过虚拟机重放置规则更新主机掩码向量。在此基础上,建立异构主机类型嵌入的特征表示方法,以反映主机间的相似度与差异。然后,构建主机历史利用率序列的特征提取网络,以捕捉资源利用的动态变化。最后,设计强化学习基础模型,实现规模可变的虚拟机重放置方法,当集群规模因主机宕机或维护而变动时,通过掩码机制限制虚拟机重放置范围,确保资源调度的有效性与稳定性。本发明针对异构集群特性,实现了灵活且高效的虚拟机重放置策略。

    支持异构作业规模的GPU共享调度方法及装置

    公开(公告)号:CN119420757A

    公开(公告)日:2025-02-11

    申请号:CN202411491793.1

    申请日:2024-10-24

    Inventor: 林伟伟 王新华

    Abstract: 本发明公开了一种支持异构作业规模的GPU共享调度方法及装置,包括:对新提交的作业进行干扰画像分析,得到作业的干扰特征表示并加入到作业队列中;采集集群运行时信息和作业信息;确定作业调度间隔;基于作业运行时信息,更新作业优先级并通过最大共享效率优先方法对作业排序;对作业队列中的作业进行遍历,确定待运行作业和待抢占作业;调用最佳打包策略和作业共置的干扰预测模型确定待运行作业的放置位置;放置作业并更新集群状态;监控新作业提交情况和更新调度间隔,若有新作业提交则跳转到对新提交的作业进行干扰画像分析,否则跳转到确定作业调度间隔的步骤。本发明能够有效减少了作业完成时间和排队时间,显著提升GPU集群的资源调度效率。

Patent Agency Ranking