一种基于脉动阵列的LSTM前向传播加速方法

    公开(公告)号:CN118114733A

    公开(公告)日:2024-05-31

    申请号:CN202410271960.5

    申请日:2024-03-11

    Abstract: 本发明涉及一种基于脉动阵列的LSTM前向传播加速方法,属于神经网络加速技术领域。在传统二维脉动阵列结构中,输入矩阵X的每一行与权重矩阵W的每一列都要进行相乘再累加的操作,实现数据的高度复用。但循环神经网络中存在大量的大规模矩阵向量乘运算,无法利用高数据复用率的传统脉动阵列结构进行运算和加速,因此,本发明引入了一种基于脉动阵列的前向传播加速方法,充分了利用硬件资源,结合脉动阵列结构,减小了计算所需带宽和访存次数,并优化了脉动阵列中各个PE的计算时间,从而缩短整体的硬件工作时间,最大化利用脉动阵列实现LSTM的加速效果。

    一种卷积神经网络数据流切片尺寸的优化方法

    公开(公告)号:CN116225989A

    公开(公告)日:2023-06-06

    申请号:CN202211603051.4

    申请日:2022-12-13

    Abstract: 本发明涉及一种卷积神经网络数据流切片尺寸的优化方法,属于数据传输技术领域。通过采用“计算通信比”模型为指定的加速器平台,在一定量的片上存储空间约束条件下,分析设计最适合其的切片数据流尺寸,使所部署的卷积神经网络模型能够发挥出平台最大理论算力,避免因卷积神经网络大量并行计算所造成的密集片外数据交互,所需峰值传输带宽超出片外存储器最大有效带宽,推理性能受到内存墙瓶颈限制等一系列问题。本发明具有适应性广、易于实现等优点,能够有效的提升卷积神经网络加速器的推理速度,减少由数据传输所带来的系统延迟,由此来解决密集计算类应用的工程实践中内存墙限制问题。

    可重构DW卷积和普通卷积的FPGA实现方法及其加速器

    公开(公告)号:CN116775558A

    公开(公告)日:2023-09-19

    申请号:CN202310963503.8

    申请日:2023-08-02

    Abstract: 本发明涉及一种可重构DW卷积和普通卷积的FPGA实现方法及其加速器,属于计算机领域。该方法包括以下步骤:对FPGA部署卷积神经网络模型时,进行输入特征图的数据重排和权重数据重排;采用数据切片重排,一次将一个切片中的数据存储到FPGA的片上存储中。本发明的方法旨在通过ARM上权重排序程序的简单修改即可完成DW卷积和普通卷积在FPGA上的融合,且不需要再对FPGA上部署的加速器做更多的修改。即在不额外增加任何FPGA硬件资源的情况下,将DW卷积融合到针对普通卷积设计的加速器中。

Patent Agency Ranking