-
公开(公告)号:CN109245773B
公开(公告)日:2021-09-28
申请号:CN201811279234.9
申请日:2018-10-30
Applicant: 南京大学
Abstract: 本发明涉及基于块循环稀疏矩阵神经网络的编解码方法,对具有块循环稀疏权值矩阵的全连接神经网络进行压缩编码;利用权值矩阵的循环特性和稀疏性,设计的采取掩模矩阵和非零值列表的编码方法;利用输入激励的稀疏性,设计的采取掩模向量和非零值列表的编码方法;充分利用了掩模矩阵和循环矩阵的特点,采用了硬件友好的解码方法。有益效果为:对稀疏的输入激励向量和权值矩阵同时进行压缩编码,有效减少数据所需的存储空间和运算过程中搬运数据所需的存储接入次数。在神经网络运算过程中,该方法能够有效降低访存消耗的能量,便于处理器跳过不必要的运算,提高硬件系统的吞吐率。
-
公开(公告)号:CN108416164B
公开(公告)日:2021-09-28
申请号:CN201810250930.0
申请日:2018-03-23
Applicant: 南京大学
IPC: G06F30/20 , G06F119/08
Abstract: 本发明公开了一种基于有限数目温度传感器的三维片上网络温度重建系统,该系统采用高斯和滤波器来重建三维片上网络芯片的温度,高斯和滤波器用若干高斯分布的加权和近似一个非高斯分布,因此若干高斯项滤波结果可被合并成一个等效高斯项;所述高斯和滤波器硬件架构是一个可重用架构,该可重用架构可实现计算资源和存储资源的复用,其包含三部分:可重用控制器、存储资源、计算单元阵列。本发明可以有效解决温度传感器数目有限且噪声为非高斯的情况下,三维片上网络温度重建的问题,本发明述及的可重用高斯和滤波器硬件架构可以提高计算资源和存储资源的利用率,同时减少面积、降低功耗。
-
公开(公告)号:CN111984226A
公开(公告)日:2020-11-24
申请号:CN202010869103.7
申请日:2020-08-26
Applicant: 南京大学
Abstract: 本发明公开了一种基于双曲CORDIC的立方根求解装置及求解方法。其方法是将立方根计算转换成可通过广义双曲坐标系下的CORDIC算法计算的对数和指数。其装置为:对数输入预处理模块将任意正数x转换成8k×r;对数计算模块,通过工作在向量模式的广义双曲CORDIC计算单元计算以8为基的双曲反正切值,进而通过移位和加法操作得到对数 指数预处理模块将 拆成整数部分I和小数部分F;指数计算模块,通过工作在旋转模式的广义双曲CORDIC计算单元求以2为基的双曲正弦值和余弦值,进而通过加法操作得到指数2F,再左移I位可得到计算结果。本发明仅采用加法、移位等简单的逻辑单元,具有关键路径短,硬件开销小等优点。
-
公开(公告)号:CN107196792B
公开(公告)日:2020-08-04
申请号:CN201710349231.7
申请日:2017-05-17
Applicant: 南京大学
Abstract: 本发明公开了一种可扩展的支持动态部分重构的可重构计算配置网络系统,采用多层次嵌套树形结构形成配置网络系统,配置流每一次改变配置路径方向都扩展两个配置方向,形成一条配置链上配置串行传递、多条配置链上配置并行传递的串并行混合配置的重构方式,多层次嵌套树形结构由至少一个双树配置网络结构与一个双向主干配置链组成,双树配置网络结构由两个单树配置网络结构组成,每个单树配置网络结构均与可重构计算单元相连。本发明几乎不增加逻辑资源消耗的前提下,减少了互连和配置功耗。
-
公开(公告)号:CN111445012A
公开(公告)日:2020-07-24
申请号:CN202010347520.5
申请日:2020-04-28
Applicant: 南京大学
Abstract: 本发明公开了一种基于FPGA的分组卷积硬件加速器及其方法。该加速器包括:顶层控制器,用于对输入数据进行处理和分组存放并将权重和激励数据传递给数据分发模块;数据分发模块,用于根据输入特征图尺寸进行数据选择和分组存放并将权重和激励数据分发给卷积运算阵列;卷积运算阵列,用于分组完成稀疏卷积的乘加运算操作;结果控制模块,用于对卷积运算阵列输出的部分和的结果进行累加缓存并进行通道随机混合操作;线性激活函数单元,用于对结果控制模块输出的结果加偏置和激活函数操作;存储器DDR,用于存储原始输入图像数据、卷积运算阵列的中间结果和最终输出的特征图。本发明可以对特征图进行快速卷积操作,并且获得更多的特征图信息。
-
公开(公告)号:CN111061992A
公开(公告)日:2020-04-24
申请号:CN201911194243.2
申请日:2019-11-28
Applicant: 南京大学
IPC: G06F17/11
Abstract: 本发明公开了一种基于抛物线的函数拟合方法及其装置。该方法的具体步骤为:使用二分法在指定区间内不断迭代,利用三点坐标求解相应系数,并计算误差,最终能够在给定的误差范围内,对各种曲线函数进行分段拟合,得到分段数的同时给出各段的抛物线系数。本发明的装置包括数据输入模块、比较模块、系数选择模块、计算单元和数据输出模块。本发明方法能得到当前函数近似拟合方法中最少的分段数,并使各分段的误差能达到最小,即达到高精度、低复杂度的目的。
-
公开(公告)号:CN109509137A
公开(公告)日:2019-03-22
申请号:CN201810966120.5
申请日:2018-08-22
Applicant: 南京大学
IPC: G06T1/00
Abstract: 本发明涉及一种嵌入比16分之一的图片水印嵌入及盲提取方法,水印嵌入方法包括如下步骤:步骤1)将载体图片分成若干4*4的图像块,并形成对应的RGB矩阵;在RGB转Y的模块中,通过色彩空间转换公式将RGB矩阵转换呈Y矩阵;步骤2)通过式(2)求出Y矩阵DCT变换域的直流分量DC;步骤3)根据式(2)结合式(3)通过同时裁剪离散余弦变换和离散余弦变换逆变换两个变换,并进一步进行裁剪色彩空间转换的操作,实现将水印信息直接嵌入在RGB通道上。有益效果:解决水印嵌入比由传统的1/64提升到1/16时,传统方法所面临的载体图片失真严重和水印提取质量较差的问题。
-
公开(公告)号:CN105429646B
公开(公告)日:2019-03-22
申请号:CN201510388034.7
申请日:2015-06-30
Applicant: 南京大学
Abstract: 本发明涉及一种咬尾阶梯码编码方法,包括如下步骤1)选择一种(n,k)线性分组码作为分量码,其中n代表码长,n∈(500,5000),k代表编码前信息长度;2)按照阶梯码中的方式对接受到的信息进行分组,构造矩阵,先在第一个矩阵的下方添加一个参与编码的全零矩阵,接着用分量码对剩余矩阵进行编码,编码的同时产生校验位矩阵,再将分组内最后一个矩阵与第一个矩阵编码完成首尾的衔接,最后用得到的校验位矩阵替代内补充的全零矩阵,完成编码。有益效果为:码通过采用这种新型的编码方案,新型的咬尾阶梯码有了分组码的特性,组与组之间的编码过程相互独立,且组内每一个矩阵内的信息依旧被包含在两个分量码之中,保证了纠错的性能。
-
公开(公告)号:CN109472350A
公开(公告)日:2019-03-15
申请号:CN201811284262.X
申请日:2018-10-30
Applicant: 南京大学
Abstract: 本发明涉及基于块循环稀疏矩阵的神经网络加速系统,包括:可扩展的处理单元阵列,存储有神经网络的部分权值,对压缩的网络进行解码和运算;主控制器主要负责对运算流程的控制;激励分发单元,在主控制器的控制下,向可扩展的处理单元阵列分发非零的运算数据。有益效果为:有效利用了块循环稀疏矩阵的特点,减轻了稀疏矩阵向量乘运算负载不均衡的问题,提高运算单元利用率;通过利用激励和权重的稀疏性,减少了片上存储的使用,跳过了冗余的运算,从而提高硬件加速器的吞吐率,满足处理深度神经网络的实时性要求。
-
公开(公告)号:CN104657334B
公开(公告)日:2018-12-28
申请号:CN201410834299.0
申请日:2014-12-29
Applicant: 南京大学
IPC: G06F17/14
Abstract: 本发明涉及一种快速傅里叶变化的基2‑4‑8混合基蝶算器,包括基2单元、基4单元以及基8单元,所述基8单元包括主要由第一复数加法器、实数运算单元连接组成的前置运算单元与基4单元,所述前置运算单元通过第一寄存器与所述基4单元连接,所述基8单元、基4单元以及基2单元并接形成流水线架构。益效果为:相对于完整的基8蝶形运算器资源开销小使用更加灵活,同时有良好的并行性来满足高吞吐率系统的需求;基2‑4‑8混合基的结构使蝶算器可以像基2算法一样可以支持2的整数次幂点的序列长度。
-
-
-
-
-
-
-
-
-