一种模型推理的请求管理方法、装置以及请求管理系统

    公开(公告)号:CN119336471A

    公开(公告)日:2025-01-21

    申请号:CN202411485019.X

    申请日:2024-10-23

    Abstract: 本发明公开了一种模型推理的请求管理方法、装置以及请求管理系统。该方法包括:获取模型推理服务的观测指标;根据观测指标进行指标预测,得到预测指标,预测指标包括中央处理器的目标内存利用率和图形处理器的目标显存利用率;根据预测指标确定调度策略,根据调度策略结合请求队列确定调度建议,并将调度建议加入至建议缓冲队列中;在模型推理服务执行请求调度时,从建议缓冲队列中读取调度建议,并根据调度建议结合模型推理服务的调度决策确定目标调度决策,根据目标调度决策控制模型推理服务调度相应的请求执行模型推理,解决了模型推理过程中请求调度不合理的问题,实现资源的高效利用和合理分配。

Patent Agency Ranking