-
公开(公告)号:CN119740663A
公开(公告)日:2025-04-01
申请号:CN202411809841.7
申请日:2024-12-10
Applicant: 中国科学院计算技术研究所
IPC: G06N5/04
Abstract: 本发明提出一种基于拓扑计算的大模型推理计算架构,包括:CPU、SDRAM、代码存储器、提示词存储器,以及大模型推理加速器,并通过总线将该CPU、该SDRAM、该代码存储器、该提示词存储器及该大模型推理加速器进行路由连接;进行大模型推理计算时,首先将该代码存储器中的代码及该提示词存储器中的提示词和词表,读取至该SDRAM,再根据该提示词的标记ID查询该SDRAM中的词表以获取嵌入向量,然后将该嵌入向量发送给该大模型推理加速器进行大模型推理计算,将该大模型推理加速器获得的输出结果发送上位机。本发明还提出一种基于拓扑计算的大模型推理计算方法及装置。本发明解决了大模型推理过程中权值加载的开销过大及KV cache的SRAM实现面积开销过大的问题。