-
公开(公告)号:CN111428189B
公开(公告)日:2023-09-22
申请号:CN202010249282.4
申请日:2020-04-01
Applicant: 南京大学
Abstract: 本申请实施例公开了一种用于反卷积运算的数据预处理方法及装置,通过根据反卷积核的尺寸以及所述反卷积核的步长,设定多个抽取起始点,并根据所述多个抽取起始点,分别按照预设的抽取间隔,对所述反卷积核进行元素抽取,获取多个子卷积核,其中,不同的抽取起始点对应获取不同的子卷积核,每一个所述子卷积核包括抽取所得的多个元素。上述方法中,硬件加速器在针对子卷积核与输入矩阵执行相乘累加操作时,不会存在大量的无效操作,提高了硬件加速器的计算效率,也无需额外的寄存器存储无效操作得到的中间结果,节省了硬件加速器的存储资源。
-
公开(公告)号:CN116451004A
公开(公告)日:2023-07-18
申请号:CN202310440082.0
申请日:2023-04-23
Applicant: 南京大学
Abstract: 本发明提供了一种用于矩阵求逆和矩阵乘法的处理器,包括处理单元PU阵列、除法器阵列、存储器和有限状态机;所述处理单元PU阵列用于进行矩阵乘法运算和矩阵求逆运算;所述处理单元PU阵列包括脉动阵列,本发明中的脉动阵列既可以实现矩阵乘法,也可以实现矩阵的LU分解和上下三角矩阵求逆,进而实现任意矩阵求逆,而非利用两块不同的硬件资源来分别实现矩阵乘法和矩阵求逆,显著提高了硬件的利用率。
-
公开(公告)号:CN116245149A
公开(公告)日:2023-06-09
申请号:CN202211636249.2
申请日:2022-12-20
Applicant: 南京大学
IPC: G06N3/063 , G06N3/0464 , G06F3/06 , G06F9/38 , G06F15/163
Abstract: 本申请提供了一种基于RISC‑V指令集拓展的加速计算装置与方法,包括:RISC‑V微处理器核模块,被配置为控制量化神经网络的读写,存储指令和小规模数据,进行取指操作,并生成自定义指令;协处理器核模块,被配置为执行来自RISC‑V微处理器核模块发送的自定义指令;存储模块,通过AXI总线与AXI互联设备相连接,其中,所述存储模块包括:DDR存储器,被配置为存储大批量的用于生成自定义指令的量化神经网络参数;DDR控制器,被配置为控制DDR存储器的读写,以解决目前的CNN模型的计算量以及参数量都十分庞大,导致模型在运行过程中需要占用大量内存,同时消耗超高算力的问题。
-
公开(公告)号:CN115936076A
公开(公告)日:2023-04-07
申请号:CN202211660618.1
申请日:2022-12-23
Applicant: 南京大学
Abstract: 本发明提供了一种适配深度学习硬件加速器的可重构激活函数硬件装置,包括函数类型判断单元、ReLU计算单元、简化函数计算单元、可变精度单元和优化函数计算单元。该发明充分利用不同非线性激活函数计算表达式之间的相关性,可以实现对ReLU函数、ReLU6函数、PReLU函数、Leaky ReLU函数、Sigmoid函数、Tanh函数、Swish函数、H‑Sigmoid函数和H‑Swish函数九种神经网络常用激活函数的近似计算,从而适配多功能的深度学习硬件加速器,在计算资源和近似精度之间取得了很好的平衡,具有计算效率高、灵活、可重构等特点。
-
公开(公告)号:CN115759193A
公开(公告)日:2023-03-07
申请号:CN202111550985.1
申请日:2021-12-17
Applicant: 南京大学
IPC: G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/096
Abstract: 本申请提供了一种快速风格迁移卷积神经网络,包括:编码层、下采样层、残差块、上采样层和解码层;所述编码层包括实例归一化层;所述上采样层包括插值层和卷积层;所述卷积层为深度可分离卷积层;所述编码层和所述解码层中使用的卷积核尺寸为7*7或5*5,所述残差块中使用的卷积核尺寸为3*3;所述残差块中的第一个逐点操作层后接非线性激活函数;所述下采样层中采用步长大于1的卷积或者使用池化层。在视觉质量几乎不损失的前提下,该轻量级网络可以实现67倍以上的模型体积压缩和63倍的浮点计算的减少。
-
公开(公告)号:CN115658005A
公开(公告)日:2023-01-31
申请号:CN202211237664.0
申请日:2022-10-10
Applicant: 南京大学
IPC: G06F7/491
Abstract: 本发明提供了一种基于冗余的高精度低延时大整数除法加速装置,所述装置包括RSD预处理模块、类减编码模块、RSD乘法器、截断模块。其中RSD预处理模块用于将输入的冗余数归一化至符合算法要求,类减编码模块用于利用简单编码来快速实现一个大数减法操作,RSD乘法器用于实现两个冗余数的快速乘积,阶截断模块用于将RSD乘法器的结果的前一半的高位截断,便于复用RSD乘法器。整个装置采用的底层加法器为冗余加法器,缩短延时,整体总运算时间大幅度降低。
-
公开(公告)号:CN115525245A
公开(公告)日:2022-12-27
申请号:CN202211153533.4
申请日:2022-09-21
Applicant: 南京大学
Abstract: 本申请提供的一种基于karatsuba算法的整数乘装置,用于实现两个被均分成N项的输入数据的相乘运算,包括重排序模块、预计算模块、乘法模块、后处理模块以及加法合并模块。其中重排序模块用于重排N项系数,预计算模块计算交叉核输入系数,乘法模块包括N/2点的karatsuba乘法子模块,并且乘法模块不在递归过程中对输出的结果进行合并,而是利用后处理模块得到第零项输出数据、奇数项输出数据以及偶数项输出数据,再通过加法合并模块对各输出数据进行拆分拼接合并,得到最终的乘法结果,节约硬件资源,缩短时延。
-
公开(公告)号:CN115470882A
公开(公告)日:2022-12-13
申请号:CN202110652981.8
申请日:2021-06-11
Applicant: 南京大学
Abstract: 本申请公开一种神经网络归一化训练方法及其架构单元,所述方法中前向传播过程包括:对输入特征向量求绝对值,根据绝对值及输入特征向量的大小获取平均值;将平均值加上常数后求倒数,得中间参数;将输入特征向量乘中间参数,得中间特征向量;用可训练参数对特征向量线性变换,得输出结果;反向传播过程包括:对误差特征向量累加得第一参数的梯度;将误差特征向量与中间特征向量乘积累加,得第二参数的梯度;将第二参数的梯度除以输入特征向量的大小得均值;根据中间参数、第二参数、误差特征向量、中间特征向量及均值,计算输出梯度。采用前述方案,避免对batch‑size与卷积层数据依赖,降低存储需求及处理延时,不涉及平方、开方等复杂运算,对硬件友好。
-
公开(公告)号:CN115205593A
公开(公告)日:2022-10-18
申请号:CN202210836215.1
申请日:2022-07-15
Applicant: 南京大学
IPC: G06V10/764 , G06V10/82 , G06V10/774 , G06V10/94
Abstract: 本申请提供一种应用于智能终端的图像分类方法及装置。所述方法包括:响应于图像分类任务,从候选模型集合中随机选取一个候选模型,得到目标模型;使用目标模型执行图像分类任务,得到分类结果。其中,候选模型集合包括通过云端GPU按照不同的稀疏阈值,结构化稀疏一个原始模型得到的多个候选模型。采用本申请提供的所述图像分类方法,即使攻击者获得用于推理的所有信息,包括模型结构、参数、随机策略以及用于随机的候选模型集合,但是也不能得知我们当前用于推理的候选模型集合中的哪一个模型。因此,不管攻击者采用同样的随机策略或者利用固定模型生成攻击样本,本申请提供的图像分类方法都能够兼顾用于推理的神经网络模型的鲁棒性和高效性。
-
公开(公告)号:CN115115018A
公开(公告)日:2022-09-27
申请号:CN202110295873.X
申请日:2021-03-19
Applicant: 南京大学
Abstract: 本申请提供一种用于长短记忆神经网络的加速系统,所述加速系统包括主机以及与所述主机实现数据交互的加速装置。所述加速装置包括:含有多个计算通道的通道组,与所述通道组相连接的权重缓存区、偏置缓存区以及激活缓存区,除此之外,加速装置还包括控制器以及解码组件。本申请中,主机用于对权重数据进行预处理获得第一输入数据,该第一输入数据为多组参数数量均衡的权重数据的集合。权重缓存区用于接收第一输入数据,该第一输入数据经解码组件解码后即可用于计算。将多组参数数量均衡的权重数据分别分配给不同处理单元进行计算,使得不同处理单元处理时间基本一致,从而解决随机稀疏带来的硬件负载不均衡问题。
-
-
-
-
-
-
-
-
-