一种基于模型压缩的递归神经网络加速器的硬件架构

    公开(公告)号:CN107633298A

    公开(公告)日:2018-01-26

    申请号:CN201710151781.8

    申请日:2017-03-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于模型压缩的递归神经网络加速器的硬件架构。硬件架构包含以下部分:矩阵乘加单元,用于实现神经网络中主要的矩阵向量乘法运算,该单元由多个乘加单元簇组成,每个乘加单元簇内包含多个由不同的基本乘加单元构成的乘加单元块,其数量直接决定加速器的并行度和吞吐率;多个双端片上静态随机存储器,其中有三个用于存储递归神经网络计算时产生的中间结果,并且有两个构成乒乓存储结构以提高数据存取效率,其余存储器用于存储神经网络的参数;多个非线性计算单元,用于实现神经网络中的非线性函数;控制单元,用于产生相关控制信号及控制数据流的流动。本发明可以实现很高的硬件效率,且可扩展性强,是一种可用于智能人机交互、机器人控制等相关领域嵌入式系统的合理方案。

    一种有效改善LDPC码误码平台处性能的低复杂度译码算法

    公开(公告)号:CN107204778A

    公开(公告)日:2017-09-26

    申请号:CN201710396010.5

    申请日:2017-05-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种可有效改善LDPC码误码平台处性能的低复杂度译码算法,算法主要包括擦除判决准则和用于解出擦除码字的查找解码算法。其中,擦除判决准则通过将码字后验概率与预设阈值比较,选取最不可信的小部分擦除码字;查找解码算法利用LDPC码校验矩阵的稀疏特性,只通过查找的方式来解出擦除部分码字,大大降低了译码复杂度。由于本发明公开的算法只在常规译码算法并未求解出正确码字时再对其输出码字进行再次译码,而目前常用的译码算法未解出正确码字的概率很低,因此本发明所提出的译码算法并不会增加很多的资源消耗。仿真结果显示,本发明公开的译码算法可以大大改善目前常用译码算法在误码平台附近的FER和BER,改善译码性能。

    一种用于正则表达式匹配的新型转换算法

    公开(公告)号:CN107193776A

    公开(公告)日:2017-09-22

    申请号:CN201710396008.8

    申请日:2017-05-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种新型构造算法用于正则表达式匹配的方法。包括以下步骤:步骤一,通过软件生成基于PCRE规则集内的任意正则表达式;步骤二,分析正则表达式,将其转化为正则表达式树状结构;步骤三,继续将正则表达式解析树形式转换为链表形式;步骤四,遍历链表形式的正则表达式,利用该算法对字符的基本构造规则,处理链表中每一个节点,生成正则表达式的有限状态机;步骤五,通过正则表达式的有限状态机,可以生成对应的电路结构,实现一个正则表达式编译器。本发明中的算法可以转换规则内的任意正则表达式,并且生成的有限状态机相比于传统转换算法,减少了大量的中间节点状态,简化了电路结构,最终得到适用于FPGA的正则表达式匹配电路,具有一定的创新性。

    一种快速、低功耗和省面积的极化码解码器中f、g运算单元的硬件架构

    公开(公告)号:CN106951212A

    公开(公告)日:2017-07-14

    申请号:CN201710151782.2

    申请日:2017-03-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种高速、低功耗、省面积的极化码解码器中f、g运算单元的硬件架构。该架构有一个g运算的加/减控制信号,指示电路执行g运算中的加法或减法运算;另有一个f/g运算控制信号,指示电路输出f或g运算的结果。该架构包含加法器,减法器,比较器,求补单元,并行化地计算出两数之和、差、差的相反数,并根据两数的符号位、相对大小以及f/g控制信号、g运算的加/减控制信号的不同组合情况,从多个候选数据中选出一个作为最终结果。该架构输入输出均为二进制原码形式,避免了多次不同二进制数表示方法之间的转换,大大缩短了f/g运算单元硬件架构的关键路径,减小了功耗和面积开销,使本发明在下一代移动通信中具有广泛的运用前景。

    一种快速、低功耗和省面积的二进制原码加/减法运算单元的硬件架构

    公开(公告)号:CN106940638A

    公开(公告)日:2017-07-11

    申请号:CN201710151784.1

    申请日:2017-03-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种新型的高速、低功耗、省面积的二进制有符号数的原码加/减运算单元的硬件架构。该架构有一个加/减控制信号,能够指示电路执行加法运算或减法运算。输入两个二进制有符号数的原码,在的加/减控制信号指示下,该硬件架构能够快速地计算出对应的两数的和或差,并仍然以原码的形式呈现。本发明主要包含了加法器,减法器,比较器,求补单元和数据选择器,接近并行化地计算出两数之和、差以及差的相反数,并根据两数的符号位、相对大小以及加/减控制信号的不同组合情况,迅速地从两数之和、差以及差的相反数三者中筛选出一个作为最终的结果。本发明通过优化计算方法,大大缩短了二进制原码加/减运算单元硬件架构的关键路径,并降低了功耗,减小了面积开销,使本发明具有广泛的运用前景。

    一种基于多进制LDPC码的高速译码器及其译码方法

    公开(公告)号:CN106936446A

    公开(公告)日:2017-07-07

    申请号:CN201710149925.6

    申请日:2017-03-10

    Applicant: 南京大学

    Inventor: 王中风 田静 林军

    Abstract: 本发明公开了一种适用于多进制LDPC码的高吞吐量、低复杂度的层级译码器及其译码方法。所述译码器包括相对寻址单元、缓存单元和计算单元,其中,相对寻址单元为计算单元和缓存单元预存了输入地址,使得层与层之间不存在多余的时钟周期;缓存单元的深度为1,最大限度的降低了延时;计算单元中包括2p‑1个基本计算单元,能够在一个时钟单位内完成一层的更新,并优化了各个模块的关键路径,提高了时钟频率。另外,本发明公开的译码方法是基于大数逻辑的硬解码方法,为了在译码性能和复杂度上取一个折中,本方法中选取了最可靠和次可靠消息,按比特的形式输入输出符号及其置信度,将2p消息转换成了p个消息的传输,大大降低了存储空间。

    一种基于近似计算的二值权重卷积神经网络硬件加速器计算模块

    公开(公告)号:CN106909970A

    公开(公告)日:2017-06-30

    申请号:CN201710029955.3

    申请日:2017-01-12

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于近似计算的二值权重卷积神经网络硬件加速器的计算模块。硬件加速器的计算模块可接收输入神经元以及二值卷积核(权重)并进行快速的卷积乘累加计算。计算模块使用补码数据表示形式,主要包含了优化的近似二值乘法器,一个压缩器树,创新的近似加法器及用于串行地累加部分和的暂存器。除此之外,针对优化的二值近似乘法器,提出了两种误差补偿方案,能在极少增加硬件资源开销的前提下使二值近似乘法器带来的误差得到降低或完全消除。本发明通过优化的计算单元,能够使使用该计算模块的二值权重卷积神经网络硬件加速器的关键路径大大缩短,并减少了面积损耗和功耗,适用于需要使用卷积神经网络的低功耗嵌入式系统。

    基于深度卷积神经网络的层内非均匀的等间隔定点量化方法

    公开(公告)号:CN106845640A

    公开(公告)日:2017-06-13

    申请号:CN201710032865.X

    申请日:2017-01-12

    Applicant: 南京大学

    CPC classification number: G06N3/084 G06K9/00 G06N3/04

    Abstract: 本发明公开了一种基于深度卷积神经网络的层内非均匀的等间隔定点量化方法,包括一下步骤:步骤一,选取部分深度卷积神经网络的能够正确识别的图像,并提取识别过程中产生的特征映射(Feature Map);步骤二,对卷积神经网络中的特征映射进行层间非规则量化,在保持模型精度情况下,确定每一层卷积网络的最大量化位数;步骤三,对于模型中的每一卷积层,在最大量化位数能表示的范围内,以一定间隔选取定点值,并用定点值代表特征映射中的值,并以索引的形式进行保存;步骤四,利用神经网络模型微调方法(Fine Tuning Method)对模型进行微调,消除量化带来的误差。本发明层间非均匀的等间隔定点量化方法,能够在保持模型精度的前提下大幅度减少深度卷积神经网络的特征映射的存储开销,具有一定的创新性。

    一种可配置的蒙哥马利模乘器

    公开(公告)号:CN114924708B

    公开(公告)日:2025-04-22

    申请号:CN202210518262.1

    申请日:2022-05-12

    Abstract: 本申请公开了一种可配置的蒙哥马利模乘器,该模乘器包括输入存储单元、第一预设数值个处理单元、迭代输入单元、相加单元、第一输出单元、输出移位单元、第二输出单元和周期控制单元,其中,第一预设数值个处理单元用于接收输入数据,并对输入数据进行移位处理,周期控制单元通过计数值控制每个计数中周期处理单元、迭代输入单元、相加单元和第一输出单元的输出。本申请公开的模乘器可以通过改变处理单元的数目实现对其对应算法的参数的改变,从而改变运算的周期数和消耗的硬件资源,使模乘器能够满足对硬件面积和延时需求不同的密码系统的需要。

    一种生成数据集网络模型及雾图生成方法

    公开(公告)号:CN114494387B

    公开(公告)日:2025-04-22

    申请号:CN202210088025.6

    申请日:2022-01-25

    Applicant: 南京大学

    Abstract: 本申请涉及图像处理技术领域,尤其涉及一种生成数据集网络模型及雾图生成方法包括:图像编码模块、耦合生成对抗网络模块、对抗判别模块和合成模块;图像编码模块包括干净图数据集输入端口及雾图数据集输入端口,耦合生成对抗网络模块包括第一生成单元及第二生成单元,对抗判别模块包括第一判别器及第二判别器;第一生成单元包括第一编码器、共享潜在图像域和第一解码器,第二生成单元包括第二编码器、共享潜在图像域和第二解码器。在实际应用过程中,本申请提出了基于耦合生成对抗网络的神经网络框架,通过网络迭代训练过程中采用半监督学习策略和特定的组合损失函数,使得网络生成的图像能够学习到真实图像的深度信息,使得图像更具真实性。

Patent Agency Ranking