一种基于FPGA的分组卷积硬件加速器及其方法

    公开(公告)号:CN111445012B

    公开(公告)日:2023-04-18

    申请号:CN202010347520.5

    申请日:2020-04-28

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于FPGA的分组卷积硬件加速器及其方法。该加速器包括:顶层控制器,用于对输入数据进行处理和分组存放并将权重和激励数据传递给数据分发模块;数据分发模块,用于根据输入特征图尺寸进行数据选择和分组存放并将权重和激励数据分发给卷积运算阵列;卷积运算阵列,用于分组完成稀疏卷积的乘加运算操作;结果控制模块,用于对卷积运算阵列输出的部分和的结果进行累加缓存并进行通道随机混合操作;线性激活函数单元,用于对结果控制模块输出的结果加偏置和激活函数操作;存储器DDR,用于存储原始输入图像数据、卷积运算阵列的中间结果和最终输出的特征图。本发明可以对特征图进行快速卷积操作,并且获得更多的特征图信息。

    一种面向神经网络的通用非线性激活函数计算装置和方法

    公开(公告)号:CN110688088B

    公开(公告)日:2023-03-28

    申请号:CN201910944451.3

    申请日:2019-09-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向神经网络的通用非线性激活函数计算装置和方法。其计算装置包括乘法器、输入选择单元、寻址单元、查找表单元、FIFO单元、乘加运算单元、线性转换单元和输出选择单元。本发明提供的面向神经网络的通用非线性函数计算装置和方法,使用分段线性逼近方法对sigmoid函数进行分段线性拟合操作,利用sigmoid函数和tanh函数的数学关系,共用寻址单元和查找表资源,通过模式选择和相应的线性变化来实现神经网络中不同的非线性函数的运算,从而减少片上计算和存储资源的消耗。

    面向具有对称性的非线性函数通用计算装置和方法

    公开(公告)号:CN110058841B

    公开(公告)日:2023-03-28

    申请号:CN201910321975.7

    申请日:2019-04-22

    Applicant: 南京大学

    Abstract: 本发明提供了一种面向具有对称性的非线性函数的通用计算装置和方法。计算装置包括取绝对值单元、地址索引单元、查找表单元、乘加单元、取符号位单元、减法器和选择器。其中,地址索引单元包括比较器、控制器、地址寄存器和分段端点存储器。本发明提供的面向具有对称性的非线性函数计算装置,可以计算任意具有轴对称或中心对称的非线性函数值,具有一定的通用性。同时本发明根据目标分段线性函数与原始非线性函数的最大绝对误差对原始非线性函数进行分段处理,可实现近似计算结果的精度可控。

    一种可配置和扩展的向量矩阵乘法装置及工作方法

    公开(公告)号:CN115130058A

    公开(公告)日:2022-09-30

    申请号:CN202210672628.0

    申请日:2022-06-15

    Applicant: 南京大学

    Abstract: 本发明提供一种可配置和扩展的向量矩阵乘法装置及工作方法。该装置包括数据接收模块、数据解包模块、矩阵存储模块、矩阵输入模块、矩阵校验模块、矩阵乘法模块、数据打包模块、数据发送模块以及数据监测模块,数据接收模块依次与数据解包模块、矩阵输入模块、矩阵存储模块、数据打包模块、数据发送模块相连;数据解包模块还分别与矩阵校验模块和矩阵乘法模块相连;矩阵校验模块和矩阵乘法模块还分别与矩阵存储模块相连;数据监测模块分别与矩阵输入模块、矩阵存储模块、矩阵校验模块、矩阵乘法模块相连。本发明采用存算一体的设计,采用数字逻辑模拟电流的汇聚以及数模转换,实现乘累加操作,减少数据搬运和缩减存储器面积,可显著降低面积成本。

    一种实现图像尺寸放大的上采样装置及其方法

    公开(公告)号:CN113933111B

    公开(公告)日:2022-08-19

    申请号:CN202111168017.4

    申请日:2021-09-30

    Applicant: 南京大学

    Abstract: 本发明提供了一种实现图像尺寸放大的上采样装置及其方法。其装置包括数据存储单元、数据传输单元、数据接收单元、卷积运算单元、读控制单元和写控制单元。本发明提供的实现图像上采样的方法,可以对不同尺寸图像、不同类型的图像进行处理,同时采用了流水化、模块化的思想,通过对处理的图像数据进行分块处理,重复使用分块中部分数据,例如分块的某一行及某一列,以避免卷积操作造成的图像的信息损失,提升了图像上采样的效果,也减少了硬件资源的开销。

    一种具有轮询仲裁和地址编码更新简化功能的异步路由器

    公开(公告)号:CN113946541A

    公开(公告)日:2022-01-18

    申请号:CN202111201529.6

    申请日:2021-10-15

    Applicant: 南京大学

    Abstract: 本发明提供了一种具有轮询仲裁和地址编码更新简化功能的异步路由器。该异步路由器包括LW E模块,用于接收东、西和本地方向的输入数据;WESN模块,用于接收LWE模块的传输数据,以及接收南北两个方向的输入数据,并判断数据包在东西两个方向上跳数是否为0;NSL模块,用于接收WESN模块的传输数据,并判断数据包南北两个方向的跳数是否为0。本发明提供的异步路由器,可以用于构成任意尺寸的使用X‑Y路由算法的2D‑mesh片上网络,具有一定的通用性。同时本发明数据包采用地址编码更新简化功能格式,在更新数据包地址信息时,只需交换导线顺序,无需添加任何数字逻辑门,可以减小异步路由器的面积开销和传输延迟。

    一种基于行缓存机制的卷积层融合存储装置及方法

    公开(公告)号:CN113946538A

    公开(公告)日:2022-01-18

    申请号:CN202111112572.5

    申请日:2021-09-23

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于行缓存机制的卷积层融合存储装置及方法。该装置包括DDR存储器,用于存储原始输入图像数据和最终输出的特征图;片上RAM,用于基于行缓存机制存储卷积层首层的输入图像数据和层间计算结果;DDR控制器,用于控制片上RAM与DDR存储器的数据交互过程;计算模块,包括数据分发模块、卷积运算阵列和结果收集模块,用于按照层融合的分块策略,对图像分块数据进行卷积计算,并将结果存入片上RAM中。本发明可以减少层融合存储过程中分块的重叠搬运,复用数据,提升片上RAM存储资源的利用效率。

    一种基于单数字信号处理单元的双乘法计算装置和方法

    公开(公告)号:CN113672196A

    公开(公告)日:2021-11-19

    申请号:CN202110804257.2

    申请日:2021-07-16

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于单数字信号处理单元的双乘法计算装置和方法。计算装置包括:输入处理单元,用于拼接具有公共乘数的两个被乘数得到长乘数;通用乘法器单元,用于计算长乘数与公共乘数的乘法运算;输出修正单元,用于根据公共乘数的符号位和第二被乘数的数值,对通用乘法器单元的输出结果进行拆分和修正,得到最终的输出值。该计算装置能够将共享乘数的两次短操作数乘法,合并为一次长操作数乘法,同时输出两个乘法结果。本发明适用有符号或无符号定点数的乘法,能有效提高复用同一乘数时,乘法操作的数据吞吐率和硬件资源利用率。

    一种近似计算tanh函数的装置

    公开(公告)号:CN110879697B

    公开(公告)日:2021-09-28

    申请号:CN201911034169.8

    申请日:2019-10-29

    Applicant: 南京大学

    Abstract: 本发明公开了一种近似计算tanh函数的装置,包括输入补码选择单元、常数乘法单元、移位单元、特殊值产生单元、加法单元和输出补码选择单元。输入补码选择单元将输入自变量x映射到正数区间输出,常数乘法单元计算2.875×x的整数部分k与小数部分特殊值产生单元产生的近似值,移位单元得到的两个部分值,加法单元计算Ω(k)与两个移位结果的和或差,输出补码选择单元将加法单元的结果转换到x对应的正数或负数区间输出。本发明的装置能实现近似计算tanh函数,在保持较高精度的同时,极大地降低了硬件架构的功耗、面积以及延时开销。

    一种分组卷积中通道混洗操作的实现装置及方法

    公开(公告)号:CN111445019A

    公开(公告)日:2020-07-24

    申请号:CN202010361012.2

    申请日:2020-04-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种分组卷积中通道混洗操作的实现装置及方法。该实现装置包括顶层控制单元、Reg数组和通道混洗模块,顶层控制单元用于将分组卷积结果存入Reg数组,并且控制通道混洗模块的数据处理过程;Reg数组用于存储分组卷积得到的各通道数据并向通道混洗模块输出数据;通道混洗模块用于对Reg数组传来的数据按混洗规则进行通道混洗处理并输出数据。在顶层控制单元的控制下完成对分组卷积结果的混洗操作,可以加快数据处理的速度、提高FPGA片上资源的利用率、降低系统的瞬时负载,本发明装置结构简单、可靠、方便实现。

Patent Agency Ranking