-
公开(公告)号:CN118485128A
公开(公告)日:2024-08-13
申请号:CN202410600483.2
申请日:2024-05-15
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所
IPC: G06N3/084 , G06N3/063 , G06N3/0464
Abstract: 本发明公开了一种面向边缘端异构设备部署深度卷积神经网络在线学习的计算图优化方法,包括以下步骤:S100:提取目标算法的前传和反传静态计算图;S200:针对前传和反传计算图进行计算图优化。反向传播计算图优化范式包括:反传计算图BN层融合、反传算子的计算重构、激活函数反传算子融合、轻量算子重计算等优化方式;S300:考虑边缘异构设备有限的全局内存,进行内存占用优化:根据优化器的种类以及张量的生命周期,进行张量的in‑place更新,并调整算子的执行顺序,复用相应的张量内存空间。本发明通过优化前反传的计算图,有效优化了计算与访存效率,提高深度卷积神经网络在线学习在端侧设备的部署效率。
-
公开(公告)号:CN119003955A
公开(公告)日:2024-11-22
申请号:CN202411017062.3
申请日:2024-07-29
Applicant: 东南大学
IPC: G06F17/15 , G06F17/10 , G06N3/0464 , G06F15/78
Abstract: 本发明公开了一种面向Transformer模型的可兼容多头自注意力和卷积计算的数据流设计方法。首先,本发明对Transformer模型中的多头自注意力模块提出了一种基于三元矩阵乘法算子的等价计算形式。然后,基于脉动阵列的数据传输形式,本发明通过算子融合设计了三元矩阵乘法算子的数据流,该数据流包括向量×向量模式和元素×向量模式,使中间计算结果保持在计算单元中,完全避免了中间结果向片外存储和片上全局缓存进行数据搬移。最后,基于该数据流,本发明提出了可兼容多头自注意力和卷积的计算策略以及对应的映射方案,充分利用了各种数据复用机会,实现了多头自注意力算子和卷积算子的高能效计算。
-