-
公开(公告)号:CN116776939A
公开(公告)日:2023-09-19
申请号:CN202310765012.2
申请日:2023-06-27
Applicant: 北京邮电大学深圳研究院
IPC: G06N3/0495 , G06N3/045 , G06N3/0442 , G06N3/063
Abstract: 本发明涉及人工智能和移动计算技术领域,且公开了一种面向终端设备的稀疏化大语言模型的部署方法,在Switch Transformer网络结构的基础上通过概率统计和并行化技术进行的改进,Switch Transformer网络结构中将T5模型中的FFN层替换为MoE结构,设计一个全局的专家暂存器,专家暂存器管理从磁盘中加载的专家网络,在进行推理时会直接使用专家暂存器中的专家网络进行推理,实现了在终端设备上以少量推理时间的增加为代价,部署远大于终端设备内存上限的模型,并实现零精度损失的推理部署。
-
公开(公告)号:CN117829226A
公开(公告)日:2024-04-05
申请号:CN202311318039.3
申请日:2023-10-12
Applicant: 北京邮电大学
IPC: G06N3/063
Abstract: 本申请公开一种面向SoC边缘服务器的神经网络协同推理方法及装置,基于预设的算子拆分规则及预设的子模型计算图分支规则,对待推理的神经网络进行算子拆分及子模型计算图分支的划分,得到多个子模型,每个所述子模型中具有多个算子;针对每一所述子模型,基于设置的所述子模型的计算图,确定所述子模型中的多个算子的执行顺序;根据所述子模型中的多个算子的执行顺序,将所述子模型的多个算子分配到所述SoC边缘服务器的不同SoC芯片中的不同CPU中,以使所述不同的SoC芯片中的不同CPU计算所述子模型中的不同算子,完成所述神经网络的推理。这样,充分利用SoC边缘服务器的SoC芯片的计算资源,减少计算资源的损失。
-
公开(公告)号:CN116775149A
公开(公告)日:2023-09-19
申请号:CN202310732822.8
申请日:2023-06-20
Applicant: 北京邮电大学
Abstract: 本申请实施例公开了一种神经网络冷启动的方法及装置,采用具有多核处理器的边缘设备,其中多核处理器采用大小核架构,以神经网络的算子内核为单位,将神经网络的运行过程拆分为多个所述算子内核的运行过程,按照所述算子内核的运行顺序,将其中的第一算子内核的参数读取的操作过程、对应权重的读取及转化的操作过程、以及运行第一算子内核的操作过程,调度在所述大核处理器中完成;将运行其余算子内核的操作过程调度在所述大核处理器中完成,将其余算子内核的参数读取的操作过程、以及对应权重的读取及转化的操作过程调度在所选取的小核处理器完成。这样,在不影响神经网络运行精度的前提下,降低延迟时间。
-
-