-
公开(公告)号:CN118114733A
公开(公告)日:2024-05-31
申请号:CN202410271960.5
申请日:2024-03-11
Applicant: 重庆邮电大学
IPC: G06N3/08 , G06N3/063 , G06N3/0442 , G06N3/049
Abstract: 本发明涉及一种基于脉动阵列的LSTM前向传播加速方法,属于神经网络加速技术领域。在传统二维脉动阵列结构中,输入矩阵X的每一行与权重矩阵W的每一列都要进行相乘再累加的操作,实现数据的高度复用。但循环神经网络中存在大量的大规模矩阵向量乘运算,无法利用高数据复用率的传统脉动阵列结构进行运算和加速,因此,本发明引入了一种基于脉动阵列的前向传播加速方法,充分了利用硬件资源,结合脉动阵列结构,减小了计算所需带宽和访存次数,并优化了脉动阵列中各个PE的计算时间,从而缩短整体的硬件工作时间,最大化利用脉动阵列实现LSTM的加速效果。
-
公开(公告)号:CN116225989A
公开(公告)日:2023-06-06
申请号:CN202211603051.4
申请日:2022-12-13
Applicant: 重庆邮电大学
IPC: G06F13/16 , G06F15/78 , G06F9/50 , G06N3/063 , G06N3/0464
Abstract: 本发明涉及一种卷积神经网络数据流切片尺寸的优化方法,属于数据传输技术领域。通过采用“计算通信比”模型为指定的加速器平台,在一定量的片上存储空间约束条件下,分析设计最适合其的切片数据流尺寸,使所部署的卷积神经网络模型能够发挥出平台最大理论算力,避免因卷积神经网络大量并行计算所造成的密集片外数据交互,所需峰值传输带宽超出片外存储器最大有效带宽,推理性能受到内存墙瓶颈限制等一系列问题。本发明具有适应性广、易于实现等优点,能够有效的提升卷积神经网络加速器的推理速度,减少由数据传输所带来的系统延迟,由此来解决密集计算类应用的工程实践中内存墙限制问题。
-
公开(公告)号:CN117542350A
公开(公告)日:2024-02-09
申请号:CN202311706415.6
申请日:2023-12-12
Applicant: 重庆邮电大学
IPC: G10L15/06 , G10L15/16 , G06N3/0442 , G06N3/0495 , G06N3/082 , G06N3/048
Abstract: 本发明涉及一种基于改进LSTM的语音识别模型剪枝方法,属于语音数据处理领域。S1:初始化基于改进LSTM的语音识别模型;S2:对语音识别模型进行训练;S3:将训练好的参数进行Top‑k剪枝。本发明的方法引入了一种面向硬件的压缩算法,该算法包括结构化的Top‑k剪枝、无乘法量化,在确保精度的情况下可以大大减少语音识别的模型大小。
-
公开(公告)号:CN116775558A
公开(公告)日:2023-09-19
申请号:CN202310963503.8
申请日:2023-08-02
Applicant: 重庆邮电大学
IPC: G06F15/78 , G06N3/0464 , G06N3/063
Abstract: 本发明涉及一种可重构DW卷积和普通卷积的FPGA实现方法及其加速器,属于计算机领域。该方法包括以下步骤:对FPGA部署卷积神经网络模型时,进行输入特征图的数据重排和权重数据重排;采用数据切片重排,一次将一个切片中的数据存储到FPGA的片上存储中。本发明的方法旨在通过ARM上权重排序程序的简单修改即可完成DW卷积和普通卷积在FPGA上的融合,且不需要再对FPGA上部署的加速器做更多的修改。即在不额外增加任何FPGA硬件资源的情况下,将DW卷积融合到针对普通卷积设计的加速器中。
-
-
-