-
公开(公告)号:CN109711532B
公开(公告)日:2023-05-12
申请号:CN201811486547.1
申请日:2018-12-06
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所 , 南京三宝科技股份有限公司
IPC: G06N3/082 , G06N3/084 , G06N3/0464
Abstract: 本发明公开一种针对硬件实现稀疏化卷积神经网络推断的加速方法,包括面对稀疏硬件加速架构的分组剪枝参数确定方法、针对稀疏硬件加速架构的分组剪枝训练方法和针对稀疏化卷积神经网络前向推断的部署方法:根据硬件架构中乘法器数量确定分组剪枝的分组长度和剪枝率,基于量级裁剪方式将压缩率以外的权值进行裁剪,通过增量训练方式提升剪枝后的网络准确率及压缩率,剪枝过的网络经微调后保存非剪枝位置的权值和索引参数并送入硬件架构下的计算单元中,计算单元同时获取分组长度的激活值完成稀疏网络前向推断。本发明基于硬件架构出发设定算法层面的剪枝参数与剪枝策略,有益于降低稀疏加速器的逻辑复杂度提高稀疏加速器前向推断的整体效率。
-
公开(公告)号:CN109948113A
公开(公告)日:2019-06-28
申请号:CN201910159208.0
申请日:2019-03-04
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所
IPC: G06F17/14
Abstract: 本发明公开一种基于FPGA的二维FFT加速器,MCU与外部存储器相连接,用于读取外部存储器的输入数据,并将FFT计算结果发送给外部存储器;图片缓存区和旋转因子缓存区分别包含N个图片子缓存区和N个旋转因子子缓存区,用于缓存通过AXI4总线接口从MCU读取的图片和旋转因子数据;地址产生器用于产生图片缓存区的读取地址,按照该地址读取图片缓存区中的数据送入FFT计算器;FFT计算器采用FPGA实现,包含N个FFT计算子单元,每个计算子单元对应配置一个图片子缓存区和一个旋转因子子缓存区,每个计算子单元均用于完成复数乘法功能和四点FFT操作;结果缓存区用于缓存FFT计算器处理后的计算结果,然后通过AXI4总线接口发送至MCU。此种结构能够高效地进行图像的二维FFT。
-
公开(公告)号:CN109598338B
公开(公告)日:2023-05-19
申请号:CN201811493592.X
申请日:2018-12-07
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所 , 南京三宝科技股份有限公司
IPC: G06N3/063 , G06N3/0464
Abstract: 本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。
-
公开(公告)号:CN109740419B
公开(公告)日:2021-03-02
申请号:CN201811397129.5
申请日:2018-11-22
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所 , 南京三宝科技股份有限公司
Abstract: 本发明公开了一种基于Attention‑LSTM网络的视频行为识别方法。通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;将光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。本发明不仅能实现从视频中识别行为的功能,且能提高识别的准确率。
-
公开(公告)号:CN109598338A
公开(公告)日:2019-04-09
申请号:CN201811493592.X
申请日:2018-12-07
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所 , 南京三宝科技股份有限公司
Abstract: 本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。
-
公开(公告)号:CN109740419A
公开(公告)日:2019-05-10
申请号:CN201811397129.5
申请日:2018-11-22
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所 , 南京三宝科技股份有限公司
Abstract: 本发明公开了一种基于Attention-LSTM网络的视频行为识别方法。通过光流图序列生成模块对输入的RGB图序列进行变换,得到光流图序列;将光流图序列与原RGB图序列输入时域注意力取帧模块,分别选取两种图序列中非冗余的关键帧;将两种图的关键帧序列输入AlexNet网络特征提取模块,分别提取出两种帧图的时序特征和空间特征,通过特征分权加强模块,对最后一层卷积层输出的特征图执行加重与动作相关性强的特征权重的操作;将两个AlexNet网络特征提取模块输出的特征图输入LSTM网络行为识别模块,分别对两种图片进行识别,并将两种识别结果通过融合模块按比例融合,得到最终的视频行为识别结果。本发明不仅能实现从视频中识别行为的功能,且能提高识别的准确率。
-
公开(公告)号:CN109711532A
公开(公告)日:2019-05-03
申请号:CN201811486547.1
申请日:2018-12-06
Applicant: 东南大学 , 东南大学—无锡集成电路技术研究所 , 南京三宝科技股份有限公司
IPC: G06N3/04
Abstract: 本发明公开一种针对硬件实现稀疏化卷积神经网络推断的加速方法,包括面对稀疏硬件加速架构的分组剪枝参数确定方法、针对稀疏硬件加速架构的分组剪枝训练方法和针对稀疏化卷积神经网络前向推断的部署方法:根据硬件架构中乘法器数量确定分组剪枝的分组长度和剪枝率,基于量级裁剪方式将压缩率以外的权值进行裁剪,通过增量训练方式提升剪枝后的网络准确率及压缩率,剪枝过的网络经微调后保存非剪枝位置的权值和索引参数并送入硬件架构下的计算单元中,计算单元同时获取分组长度的激活值完成稀疏网络前向推断。本发明基于硬件架构出发设定算法层面的剪枝参数与剪枝策略,有益于降低稀疏加速器的逻辑复杂度提高稀疏加速器前向推断的整体效率。
-
公开(公告)号:CN109447014A
公开(公告)日:2019-03-08
申请号:CN201811317221.6
申请日:2018-11-07
Applicant: 东南大学-无锡集成电路技术研究所 , 东南大学 , 南京三宝科技股份有限公司
Abstract: 本发明公开了一种基于双通道卷积神经网络的视频在线行为检测方法。首先,通过光流图片序列生成模块对输入的RGB图进行变换,得到光流图;其次,将得到的光流图与原RGB图通过双通道分别输入至两个相同的轻量双卷积核SSD网络中,分别提取出两种图的时序特征和空间特征以及检测框和置信分值;然后,通过融合模块对两种图片生成的检测框和置信分值进行融合,形成带检测框和置信分值的图片;最后,将带有检测框和置信分值的图片输入在线动作管道,从视频的角度给出最终的行为检测结果。本发明通过设计轻量双卷积核SSD网络,大幅度简化了深度学习网络,提高了行为检测效率。
-
公开(公告)号:CN110390384B
公开(公告)日:2021-07-06
申请号:CN201910554533.7
申请日:2019-06-25
Applicant: 东南大学
Abstract: 本发明公开了一种可配置的通用卷积神经网络加速器,属于计算、推算、计数的技术领域。该加速器包括:PE阵列、状态控制器、功能模块、权重缓存区、特征图缓存区、输出缓存区和寄存器栈,状态控制器包括网络参数寄存器和工作状态控制器。通过配置网络参数寄存器对不同规模的网络均能取得优异的加速效果,工作状态控制器控制着加速器工作状态的切换并将控制信号发送至其它模块。权重缓存区、特征图缓存区和输出缓存区均由多个数据子缓存区构成,用于分别存放权重数据、特征图数据和计算结果。本发明能够针对不同的网络特点,配置合适的数据重用模式、阵列尺寸和子缓存区个数,通用性好,功耗低,吞吐量高。
-
公开(公告)号:CN110390385B
公开(公告)日:2021-09-28
申请号:CN201910572582.3
申请日:2019-06-28
Applicant: 东南大学
Abstract: 本发明公开了一种基于BNRP的可配置并行通用卷积神经网络加速器,属于计算、推算、计数的技术领域。加速器包含:模式配置器、卷积计算器、BNRP计算器、数据通信单元、数据压缩编码/解码器。卷积计算器包含T个大小为R*C的脉动卷积阵列,每个脉动卷积阵列配置相应的输入、输出特征图缓存区、配置信息数据缓存区。BNRP计算器可执行两种计算模式,包含:R*T个数据输入和输出接口、R*T个池化器、归一化计算模块和非线性激活计算模块,各功能模块按流水线方式并行执行。本发明能够根据各种网络结构的特点,动态配置并行加速计算模块执行模式.且通用性好,对网络结构层复杂且规模相对较大的卷积神经网络,可极大地降低计算复杂度,功耗低、吞吐量高。
-
-
-
-
-
-
-
-
-