基于无服务器计算的在线深度学习推理服务分割方法

    公开(公告)号:CN117851074A

    公开(公告)日:2024-04-09

    申请号:CN202410164167.5

    申请日:2024-02-05

    Abstract: 本发明提供了一种基于无服务器计算的在线深度学习推理服务分割方法,包括:步骤S1:基于用户提交的DLIS请求,令服务分析器分析DLIS的主导运算符O,基于分析的结果,生成作为有向无环图DAG的图G;步骤S2:基于图G,令模型分割器生成分割方案并分割DLIS,并对DLIS的切片制定并行化策略;步骤S3:基于模型分割器的分割结果与并行化策略,令调度器将同一个DLIS的若干切片部署在同一个服务器上;步骤S4:通过通信优化模块对所述服务器进行优化。本发明针对无服务器平台上的DLIS,提供模型混合分割框架,将深度学习模型水平和垂直分割,提高无服务平台中的深度学习推理服务的资源利用率和降低部署成本,同时,确保服务延迟最小化。

    基于深度学习的流水线冷启动优化系统及方法

    公开(公告)号:CN119003092A

    公开(公告)日:2024-11-22

    申请号:CN202411144634.4

    申请日:2024-08-20

    Abstract: 本发明提供了一种基于深度学习的流水线冷启动优化系统及方法,系统包括模型分区引擎,采用垂直分区方法将深度学习推理服务划分为多个切片;基于空闲容器估计的调度器,使用基于历史模式的段相似性的预测机制预测未来的空闲容器状态,制定用于调度切片的重用策略;基于相似性的容器匹配器,评估基于空闲容器估计的调度器的重用策略,识别并调度空闲容器。本发明确定了RIC的规律,全面的分析了RIC之间的潜在关联性,并设计了一种基于RIC使用模式的预测模型,通过分割降低了无服务平台中的深度学习推理服务的冷启动延迟。

Patent Agency Ranking