一种针对硬件实现稀疏化卷积神经网络推断的加速方法

    公开(公告)号:CN109711532B

    公开(公告)日:2023-05-12

    申请号:CN201811486547.1

    申请日:2018-12-06

    Abstract: 本发明公开一种针对硬件实现稀疏化卷积神经网络推断的加速方法,包括面对稀疏硬件加速架构的分组剪枝参数确定方法、针对稀疏硬件加速架构的分组剪枝训练方法和针对稀疏化卷积神经网络前向推断的部署方法:根据硬件架构中乘法器数量确定分组剪枝的分组长度和剪枝率,基于量级裁剪方式将压缩率以外的权值进行裁剪,通过增量训练方式提升剪枝后的网络准确率及压缩率,剪枝过的网络经微调后保存非剪枝位置的权值和索引参数并送入硬件架构下的计算单元中,计算单元同时获取分组长度的激活值完成稀疏网络前向推断。本发明基于硬件架构出发设定算法层面的剪枝参数与剪枝策略,有益于降低稀疏加速器的逻辑复杂度提高稀疏加速器前向推断的整体效率。

    一种针对硬件实现稀疏化卷积神经网络推断的加速方法

    公开(公告)号:CN109711532A

    公开(公告)日:2019-05-03

    申请号:CN201811486547.1

    申请日:2018-12-06

    Abstract: 本发明公开一种针对硬件实现稀疏化卷积神经网络推断的加速方法,包括面对稀疏硬件加速架构的分组剪枝参数确定方法、针对稀疏硬件加速架构的分组剪枝训练方法和针对稀疏化卷积神经网络前向推断的部署方法:根据硬件架构中乘法器数量确定分组剪枝的分组长度和剪枝率,基于量级裁剪方式将压缩率以外的权值进行裁剪,通过增量训练方式提升剪枝后的网络准确率及压缩率,剪枝过的网络经微调后保存非剪枝位置的权值和索引参数并送入硬件架构下的计算单元中,计算单元同时获取分组长度的激活值完成稀疏网络前向推断。本发明基于硬件架构出发设定算法层面的剪枝参数与剪枝策略,有益于降低稀疏加速器的逻辑复杂度提高稀疏加速器前向推断的整体效率。

    一种基于元学习的细粒度分类方法

    公开(公告)号:CN109711433A

    公开(公告)日:2019-05-03

    申请号:CN201811451465.3

    申请日:2018-11-30

    Abstract: 本发明公开一种基于元学习的细粒度分类方法,步骤是:建立外部数据集,将数据集分为训练集、验证集和测试集,三者之间的样本类别互不相交,且测试集的样本类别小于训练集;对数据集中的样本进行数据增强;建立卷积神经网络,该卷积神经网络的输入为彩色图片,输出为彩色图片所属类别,分类层的长度等于外部数据集的类别数,损失函数采用softmax loss;采用训练集训练细粒度分类网络;利用测试集对预训练好的卷积神经网络进行测试,并根据测试结果对卷积神经网络进行微调。此种方法可以快速生成一个良好的通用初始化模型,可以使得在测试相关但不同的类别时,仅用较少的样本就可以取得较好的分类效果,来解决细粒度分类时没有大数据集的问题。

    一种基于FPGA的计算优化的卷积神经网络加速器

    公开(公告)号:CN109598338A

    公开(公告)日:2019-04-09

    申请号:CN201811493592.X

    申请日:2018-12-07

    Abstract: 本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。

    一种基于FPGA的计算优化的卷积神经网络加速器

    公开(公告)号:CN109598338B

    公开(公告)日:2023-05-19

    申请号:CN201811493592.X

    申请日:2018-12-07

    Abstract: 本发明公开一种基于FPGA的计算优化的卷积神经网络加速器,包括AXI4总线接口、数据缓存区、预取数据区、结果缓存区、状态控制器及PE阵列;数据缓存区用于缓存通过AXI4总线接口从外部存储器DDR中读取的特征图数据、卷积核数据和索引值;预取数据区用于从特征图子缓存区预取需要并行输入PE阵列的特征图数据;结果缓存区用于缓存每行PE的计算结果;状态控制器用于控制加速器工作状态,实现工作状态间的转换;PE阵列用于读取预取数据区和卷积核子缓存区中的数据进行卷积操作。此种加速器利用参数稀疏性、重复权重数据和激活函数Relu的特性,提前结束冗余计算,减少计算量,并通过减少访存次数来降低能耗。

    一种面向ECC的双域并行度可变的Montgomery模乘电路

    公开(公告)号:CN107463354B

    公开(公告)日:2020-08-21

    申请号:CN201710565871.1

    申请日:2017-07-12

    Abstract: 本发明提出了一种面向ECC(椭圆曲线密码)可伸缩串并混合并行度可变的双域Montgomery模乘电路电路,它由控制模块、Memory、寄存器组和双域流水线乘法单元组成,支持Montgomery模乘运算并行度可变,灵活的均衡Montgomery模乘运算的时间和面积开销,具有扩展性,最高可支持256bit的Montgomery模乘运算。资源约束条件下,通过降低电路模块的并行度来减少模乘的面积开销。同时可以通过增加电路的并行度来减少Montgomery模乘的运算时间。本发明可以根据使用场景灵活的在Montgomery模乘运算时间及电路面积中选择与均衡,使得采用本发明电路模块结构的ECC加密算法使用场景更加灵活。

Patent Agency Ranking