一种Winograd卷积运算加速方法及加速模块

    公开(公告)号:CN113283587B

    公开(公告)日:2023-09-19

    申请号:CN202110588325.6

    申请日:2021-05-28

    Abstract: 本发明提供一种Winograd卷积运算加速方法及加速模块,对于非3×3形状的卷积运算,使用基于步长的卷积核拆分方法将输入矩阵拆分或者填充为4×4的输入矩阵,将卷积核矩阵拆分或者填充为3×3的卷积核矩阵;使用卷积核转换矩阵G和输入矩阵转换矩阵BT对3×3的卷积核矩阵和4×4的输入矩阵分别进行Winograd变换,得到变换后的卷积核矩阵U和输入矩阵V;对变换后的卷积核矩阵U中的元素uξ,v按照比特级精度进行权重拆分,通过累加运算和移位运算得到矩阵Z;对矩阵Z进行Winograd变换,获得卷积运算的输出矩阵。本发明不但能合理利用片上资源、降低计算复杂度,且可以兼容大多数尺寸的卷积运算。

    一种面向卷积神经网络加速器的Winograd卷积拆分方法

    公开(公告)号:CN110533164B

    公开(公告)日:2023-04-07

    申请号:CN201910717929.9

    申请日:2019-08-05

    Abstract: 本发明公开了一种面向卷积神经网络加速器的Winograd卷积拆分方法,包括以下步骤:1)从卷积神经网路加速器的缓存中读取大小任意的输入和卷积核;2)根据卷积核大小和输入大小判断是否进行卷积拆分,如需进行卷积拆分,则进行下一步;3)根据卷积核大小和步长对卷积核进行拆分,根据输入大小和步长对输入进行拆分;4)根据卷积核大小将拆分后的元素组合并补零,根据输入大小将拆分后的元素组合并补零;5)将每对拆分后的输入和卷积核进行Winograd卷积;6)将每队输入和卷积核的Winograd卷积结果累加;7)将累加结果存储在卷积神经网络加速器的缓存中。本发明使得卷积神经网络加速器采用一种Winograd加速单元就可以支持多种不同形状的卷积。

    一种面向稀疏卷积神经网络的加速器及加速方法

    公开(公告)号:CN115640833A

    公开(公告)日:2023-01-24

    申请号:CN202211274717.6

    申请日:2022-10-18

    Abstract: 本发明面向稀疏卷积神经网络的加速方法,包括:S1,根据稀疏卷积神经网络中稀疏卷积核的非零权重的重要性,将稀疏卷积核中的非零权重进行聚集和重排,得到重排卷积核;S2,根据重排卷积核中非零权重的索引对输入块进行扩张,得到扩张输入块;S3,对扩张输入块中的特征图子块进行累加,得到累加块,将累加块与重排卷积核进行卷积运算并取平均值,得到卷积结果;或者,根据扩张输入块中特征图子块的重要性对特征图子块进行筛选,得到候选块,将候选块与重排卷积核进行卷积运算,得到卷积结果。本发明在改善网络结构的同时能大幅度降低稀疏卷积神经网络模型中的冗余运算量。

    一种按照比特精度进行权重拆分的卷积运算加速方法

    公开(公告)号:CN112434801B

    公开(公告)日:2022-12-09

    申请号:CN202011192684.1

    申请日:2020-10-30

    Abstract: 本发明公开了一种按照比特精度进行权重拆分的卷积运算加速方法,包括:1)对于卷积核中每一个权重W,遍历比较其每一个比特位,标记出所有比特数据中的非零元素ck×k’,q,同时将此位置所属的权重Wk×k’对应的输入特征图数据FIk×k’标记,传递给FIk×k’,q’,未被标记处的FIk×k’,q’用“0”补上;2)对于每一个比特位,累加被归类给予当前比特的所有输入数据;3)将每q比特下的累加结果乘以2q;4)对移位计算获得的结果再次进行累加,以获得当前卷积运算的输出特征图数据FO;迭代地重复步骤1)至4),则可生成所有卷积通道的输出特征图数据。本发明使得卷积运算摆脱了对片上DSP资源的依赖,提高了卷积运算可以达到的计算并行度的上限。

    并行选取超参数设计多分支卷积神经网络识别行人的方法

    公开(公告)号:CN111582094B

    公开(公告)日:2022-04-22

    申请号:CN202010346203.1

    申请日:2020-04-27

    Abstract: 本发明并行选取超参数设计多分支卷积神经网络识别行人的方法,包括步骤:1)初始化多分支卷积神经网络架构;2)自适应的根据具体任务,自动化筛选构建单元,迭代并行添加到各分支,构成精度和运算量可分离的分支卷积神经网络;3)验证评估,保留最高精度下降5%以内的所有模型,选择其中计算量最小的模型为选取结构;4)将最有筛选的多分支卷积神经网络拆分开来,单个分支使用或者两两分支组合作为基准模型,存储在终端设备,离线推理识别行人。本发明中多分支卷积神经网络的各个分支一起,根据具体的行人识别数据集,在每个迭代周期选取超1次参数,生成构建块,这些构建块并行添加到各分支去训练,然后选择出性能优异的超参数保存模型。

    一种高吞吐率的动态可重构卷积神经网络加速器

    公开(公告)号:CN110516801B

    公开(公告)日:2022-04-22

    申请号:CN201910718678.6

    申请日:2019-08-05

    Abstract: 本发明一种高吞吐率的动态可重构卷积神经网络加速器架构。其输入输出缓存和权值缓存用于存储来自储外部存储器的数据或者计算过程中产生的数据,以及卷积核数据,将其组织、排列后,以统一的数据流传送到运算阵列中进行计算;运算阵列用于接收来自输入输出缓存和权值缓存的数据,进行卷积操作处理后存储在缓存架构中;输出处理模块用于接收来自运算阵列的数据,选择进行累加、标准化、或者激活函数等操作,并将输出数据存储在输入输出缓存中;控制模块用于向其他模块发送命令,并设计有外部接口,用于和外部系统进行通信。本发明通过设计高并行度、高利用率的运算阵列以及高片上数据复用率的缓存架构提高卷积神经网络加速器的性能,降低功耗。

Patent Agency Ranking