-
公开(公告)号:CN119440632A
公开(公告)日:2025-02-14
申请号:CN202411471669.9
申请日:2024-10-21
Applicant: 上海交通大学 , 北京微电子技术研究所
Abstract: 本发明公开了一种应用于边缘设备的大语言模型流水线推理架构,涉及大语言模型领域,本发明提出了一种内存高效的流水线执行机制,即PIPELOAD,针对其实际应用提出了Hermes架构由层分析器、流水线规划器和执行引擎三部分组成;层分析器是对给定的Transformer模型中的每一层进行分析,以评估其运行性能和内存使用情况;利用层分析器生成的数据,所述流水线规划器通过改变加载代理数量以生成在不同内存限制下的执行计划;在确定执行计划后,模型推理将根据边缘设备的当前的实际内存约束,在所述执行引擎中,遵从由流水线规划器生成的对应执行计划,按照该计划中的加载代理数量进行执行。本发明有效解决了流水线阻塞的问题和在边缘设备上部署大模型时内存受限的问题。