一种自适应负载均衡方法及系统

    公开(公告)号:CN116360987B

    公开(公告)日:2023-09-12

    申请号:CN202310261234.0

    申请日:2023-03-17

    Abstract: 本发明提供一种自适应负载均衡方法及系统,属于负载均衡领域。本发明基于的并行流水线执行模式是使用包含若干流水级的并行执行流执行来自多个客户端的任务,本方法在拥塞延迟变高且在执行流之间不均衡时,依次使用交叉熵方法和强化学习分别进行执行流之间的负载均衡以及客户端和服务器之间的负载均衡。本发明能基于当前拥塞延迟的严重程度在客户端‑服务器计算范式中对使用并行流水线执行模式的服务器进行负载均衡,提供了比传统的负载均衡方法更细粒度的负载均衡,能够降低拥塞延迟和拥塞延迟的波动,提升服务器处理来自多个客户端的任务的性能。

    一种大模型键值缓存量化超参数选择方法及系统

    公开(公告)号:CN119623584A

    公开(公告)日:2025-03-14

    申请号:CN202411541171.5

    申请日:2024-10-31

    Abstract: 本发明公开一种大模型键值缓存量化超参数选择方法及系统,属于大模型技术领域。所述方法包括:获取大模型的内存瓶颈或大模型的延迟瓶颈;在内存瓶颈或延迟瓶颈下,计算各键值缓存量化超参数组所能共同达到的最大batch_size;在该最大batch_size下使用一键值缓存量化超参数组进行大模型推理,获取该键值缓存量化超参数组对应的性能与精度的点;基于所有性能与精度的点,生成该大模型所对应的帕累托曲线;根据大模型的应用场景在帕累托曲线上选择键值缓存量化超参数组。本发明可以更轻易地使大模型达到更高的吞吐量。

    一种面向AIoT的多任务本地协同推理方法及系统

    公开(公告)号:CN116306943B

    公开(公告)日:2023-10-17

    申请号:CN202310254000.3

    申请日:2023-03-16

    Abstract: 本发明提供一种面向AIoT的多任务本地协同推理方法及系统,属于分布式机器学习领域。本发明通过AIoT客户端将客户端本地模型切片推理的中间结果通过并行通信局域网发送至本地服务器,本地服务器使用同一模型切片对中的对应模型切片初始化推理引擎并完成推理过程,随后将结果回传至原客户端。本发明使用局部贪心搜索对协同推理中所用的模型切片进行通信优化,使用内存复用和内存替换加速推理引擎初始化,通过两级并行执行流来执行的协同推理任务。本发明使用本地设备和局域网进行协同推理,避免了传统方法中的隐私泄露和网络波动问题,为大量AIoT客户端提供低延迟的协同推理服务,提升了系统处理协同推理任务的吞吐量。

    一种自适应负载均衡方法及系统

    公开(公告)号:CN116360987A

    公开(公告)日:2023-06-30

    申请号:CN202310261234.0

    申请日:2023-03-17

    Abstract: 本发明提供一种自适应负载均衡方法及系统,属于负载均衡领域。本发明基于的并行流水线执行模式是使用包含若干流水级的并行执行流执行来自多个客户端的任务,本方法在拥塞延迟变高且在执行流之间不均衡时,依次使用交叉熵方法和强化学习分别进行执行流之间的负载均衡以及客户端和服务器之间的负载均衡。本发明能基于当前拥塞延迟的严重程度在客户端‑服务器计算范式中对使用并行流水线执行模式的服务器进行负载均衡,提供了比传统的负载均衡方法更细粒度的负载均衡,能够降低拥塞延迟和拥塞延迟的波动,提升服务器处理来自多个客户端的任务的性能。

    一种面向AIoT的多任务本地协同推理方法及系统

    公开(公告)号:CN116306943A

    公开(公告)日:2023-06-23

    申请号:CN202310254000.3

    申请日:2023-03-16

    Abstract: 本发明提供一种面向AIoT的多任务本地协同推理方法及系统,属于分布式机器学习领域。本发明通过AIoT客户端将客户端本地模型切片推理的中间结果通过并行通信局域网发送至本地服务器,本地服务器使用同一模型切片对中的对应模型切片初始化推理引擎并完成推理过程,随后将结果回传至原客户端。本发明使用局部贪心搜索对协同推理中所用的模型切片进行通信优化,使用内存复用和内存替换加速推理引擎初始化,通过两级并行执行流来执行的协同推理任务。本发明使用本地设备和局域网进行协同推理,避免了传统方法中的隐私泄露和网络波动问题,为大量AIoT客户端提供低延迟的协同推理服务,提升了系统处理协同推理任务的吞吐量。

Patent Agency Ranking