-
公开(公告)号:CN119690687A
公开(公告)日:2025-03-25
申请号:CN202510221607.0
申请日:2025-02-27
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/50 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本申请公开了一种基于异构计算系统的请求分配方法、系统、设备和介质,涉及计算机技术领域,优先考虑键值缓存机制的使用情况下,确定多个异构算力设备访问内存时使用键值缓存所需的读取时间。考虑异构算力设备的算力信息的性能差异、内存扩展对应的内存信息和推理任务信息的特性,合理分配请求。进一步根据预设分配请求数量与并发请求数量之间的比较关系,以及是否满足分配条件的不同策略,提高请求分配的合理性。因此,可以解决在调用分离式内存还是本地内存时对于推理请求的分配均衡性较差,导致算力资源浪费较多的技术问题,达到将推理任务信息合理分配至异构算力设备,以提高分配均衡性的同时,节约算力资源、降低成本的技术效果。