-
公开(公告)号:CN115129477A
公开(公告)日:2022-09-30
申请号:CN202210918942.2
申请日:2022-08-01
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明公开了一种资源高效与服务质量感知的推理服务系统自适应调度方法,包括:深度学习模型自动选择模块利用协同过滤方法预测推理工作负载在不同深度学习模型上运行的推理性能;深度学习模型自动选择模块利用贪婪算法选择满足用户服务质量需求的最优深度学习模型,并将最优深度学习模型部署至容器中为推理服务系统中的推理工作负载服务;协同管理模块利用深度强化学习方法,根据推理工作负载的动态变化,协同地调整GPU资源分配和批量大小设置,本发明可根据用户的需求自动地选择深度学习模型,可根据推理工作负载的动态变化协同地调整GPU资源的分配和批量大小的设置。
-
公开(公告)号:CN115129477B
公开(公告)日:2025-05-23
申请号:CN202210918942.2
申请日:2022-08-01
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明公开了一种资源高效与服务质量感知的推理服务系统自适应调度方法,包括:深度学习模型自动选择模块利用协同过滤方法预测推理工作负载在不同深度学习模型上运行的推理性能;深度学习模型自动选择模块利用贪婪算法选择满足用户服务质量需求的最优深度学习模型,并将最优深度学习模型部署至容器中为推理服务系统中的推理工作负载服务;协同管理模块利用深度强化学习方法,根据推理工作负载的动态变化,协同地调整GPU资源分配和批量大小设置,本发明可根据用户的需求自动地选择深度学习模型,可根据推理工作负载的动态变化协同地调整GPU资源的分配和批量大小的设置。
-