一种多功能向量算法加速器的动态重构方法

    公开(公告)号:CN117369769A

    公开(公告)日:2024-01-09

    申请号:CN202311399106.9

    申请日:2023-10-26

    Applicant: 南京大学

    Abstract: 本发明公开了一种多功能向量算法加速器的动态重构方法,包括提取算法并行度及运算特征,根据算法并行度和操作数数量确定向量存储模块的分区方式;根据算法并行度和操作数数量确定向量源数据通道的启用数量,通过源数据通道将源数据从向量存储模块搬至向量计算模块;根据算法并行度、第一层运算层的运算类型、运算结构和除法器启用需求确定向量计算模块内部的运算单元的启用数量和连线方式;根据算法并行度和运算结构确定向量结果数据通道的启用数量。本发明通过提取算法并行度及运算特征,对向量算法加速器的硬件电路进行动态重构,能灵活地进行存储资源、数据通路和计算资源的组合调度,在保证系统性能的同时显著降低面积开销。

    一种面向基于片上网络的神经网络加速器的同步感知仲裁模块

    公开(公告)号:CN117076380A

    公开(公告)日:2023-11-17

    申请号:CN202311043803.0

    申请日:2023-08-18

    Applicant: 南京大学

    Abstract: 本发明公开了一种面向基于片上网络的神经网络加速器的同步感知仲裁模块,包括优先级产生模块,集成在处理单元中,接收数据包发送有效信号,根据处理单元的剩余数据包数目为数据包分配优先级,生成对应的层标识;同步感知仲裁模块,集成在路由器中,接收数据包携带的优先级和层标识,进行层间通信同步感知仲裁。本发明针对基于片上网络的神经网络加速器中由多对一和多对多流量带来的通信同步问题,通过相邻层数据包的同步感知优先级仲裁实现了对源节点的反压调控,通过负反馈机制动态调节各个源节点的发包速率,实现层与层之间的通信同步,减小了层与层之间的传输延迟,并最终减少了神经网络的总推理时间。

    一种基于线性分段的softmax硬件实现方法

    公开(公告)号:CN113377332B

    公开(公告)日:2023-08-22

    申请号:CN202110591328.5

    申请日:2021-05-28

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于线性分段的softmax硬件实现方法,该方法实现的电路系统包括:控制器用于实现softmax运算所需的源数据的读取和分发,以及运算结果的存储;排序模块用于将输入进行排序,并找出最大值;自然指数模块用于计算输入源数据的e指数函数值;加法树模块用于将e指数模块的结果进行累加;除法模块用于计算每个e指数计算结果与累加结果的比值。该方法实现的电路系统通过分解计算过程、压缩计算区间,大幅降低了传统查找表方法实现softmax的参数,兼具了高性能和低硬件资源开销,可用于各种人工智能算法加速场景。

    一种基于2型双曲CORDIC任意指数函数的计算系统

    公开(公告)号:CN109739470B

    公开(公告)日:2023-06-13

    申请号:CN201811653497.1

    申请日:2018-12-30

    Applicant: 南京大学

    Abstract: 本发明涉及基于2型双曲CORDIC任意指数函数的计算系统,包括:核心算法控制模块,通过任务调度以及连接其他模块使得整个设计方案依序执行;2型双曲旋转模式CORDIC模块,通过多次迭代计算出以2为底、任意指数的指数函数结果;2型双曲向量模式CORDIC模块,通过多次迭代计算出以2为底、任意真数的对数函数结果;基本运算模块,包括浮点转换单元、延时单元、加法单元和乘法单元,根据输入的浮点型底数、定点型指数,利用这四个单元以及上述两个模块计算并输出类浮点型结果。有益效果:本发明支持任意浮点型底数、任意定点型指数进行指数函数运算,解决了传统固定硬件电路无法实现更广范围内的指数函数运算的问题。

    宽范围的失调消除可编程程控放大器

    公开(公告)号:CN116054750A

    公开(公告)日:2023-05-02

    申请号:CN202211733383.4

    申请日:2022-12-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种宽范围的失调消除可编程程控放大器,包括放大器本体、单位电阻、电阻阵列和失调消除单元:放大器本体具有正输入端、负输入端、正输出端和负输出端;单位电阻设置于放大器本体的正输入端和负输入端;电阻阵列分别连接与放大器本体的正输入端与负输出端之间,和/或连接于放大器本体的负输入端和正输出端之间;失调消除单元包括两端分别连接于正输出端和负输出端的比较器、两端分别连接于正输入端和负输入端的电流开关网络,以及分别与比较器和电流开关网络一端连接的数字逻辑单元。本发明在有效控制面积的情况下,通过较为简洁的方法实现了宽范围的功能,并且通过新的数字方法,在较短时间内完成失调消除的功能。

    模乘精简的同态加密神经网络线性层硬件加速方法及系统

    公开(公告)号:CN115776367A

    公开(公告)日:2023-03-10

    申请号:CN202211356621.4

    申请日:2022-11-01

    Applicant: 南京大学

    Abstract: 本发明公开了一种模乘精简的同态加密神经网络线性层硬件加速方法及系统,该方法包括:用户端接收输入的神经网络模型的权重数据,并采用加法二次幂方法进行量化,然后进行重排和转置;用户端接收输入的神经网络模型的源数据,并采用img2col的方式进行重排,然后进行转置,并编码为明文多项式;用户端将编码后的明文多项式加密为同态加密方案对应的密文,并与处理后的权重数据一起发送到硬件加速器;硬件加速器对密文和权重数据开启同态加密条件下的神经网络线性层运算,并将运算结果反馈到用户端。本发明减小了模乘运算器的计算周期和资源开销,提升了计算效率。

    基于分段二次多项式近似的单精度浮点数N次开根号计算架构、方法和系统

    公开(公告)号:CN115495046A

    公开(公告)日:2022-12-20

    申请号:CN202210943023.0

    申请日:2022-08-08

    Applicant: 南京大学

    Abstract: 本发明涉及基于分段二次多项式近似的单精度浮点数N次开根号计算架构、方法和系统,包括:log2分段二次多项式近似模块,通过分段二次多项式近似计算出以2为底、任意真数的对数函数结果;exp2分段二次多项式近似模块,通过分段二次多项式近似计算出以2为底、任意指数的指数函数结果;基本运算模块包括浮点转换单元、加法单元、查找表单元和乘法单元;控制模块通过调用各个模块和计算单元控制整体计算流程并输出结果。本发明可同时获得高精度、低延时、低资源占用率和低功耗的要求。

    基于三值脉冲的脉冲神经网的优化方法及硬件加速器

    公开(公告)号:CN115374924A

    公开(公告)日:2022-11-22

    申请号:CN202211029242.4

    申请日:2022-08-26

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于三值脉冲的脉冲神经网络的优化方法及硬件加速器。步骤如下:在每个时间步长内设置一个采样窗口,在采样窗口内使用泊松分布生成与输入图像对应的二值脉冲序列;将采样窗口的每个二值脉冲序列累加,根据累加结果生成三值脉冲,将所有时间步长内的三值脉冲集合,生成与输入图像对应的三值脉冲序列;对神经元设置双膜阈值电压,根据双膜阈值电压,神经元输出相应的三值脉冲;前向传播结束后,使用梯度替代的反向传播算法更新权重;训练完成后,使用硬件加速器对训练好的网络进行推理。本方法显著提高了脉冲的信息携带能力,大大缩短了训练及推理所需的时间窗口长度,保持硬件控制逻辑简单的同时进一步增大了网络的吞吐率。

    基于贪婪算法的三维片上网络中温度传感器的部署方法

    公开(公告)号:CN108536931B

    公开(公告)日:2022-02-08

    申请号:CN201810250929.8

    申请日:2018-03-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于贪婪算法的三维片上网络中温度传感器的部署方法,该方法首先建立一个基于状态空间的三维片上网络的热模型,然后设定可观测性格拉姆矩阵的秩作为优化目标函数,最后采用贪婪算法,从温度传感器可选的位置集合V中选择一个大小为m的子集S用来部署温度传感器,该子集使得目标函数最大化。本发明可以在多项式时间内找到一个次优解,并保证满足一定的误差界。与传统方法相比,在存在测量噪声以及传感器数目有限的情况下,本发明结合卡尔曼滤波可以实现较高精度的全芯片温度重建。

    一种基于超前预测实现相位噪声补偿的硬件系统及其实现方法

    公开(公告)号:CN112260980B

    公开(公告)日:2021-10-26

    申请号:CN202011163735.8

    申请日:2020-10-27

    Applicant: 南京大学

    Abstract: 本发明提出一种基于超前预测实现相位噪声补偿的硬件系统及其实现方法,包括用于控制所有计算模块和存储模块的核心控制模块;用于存储计算出的导频相位角和调制后信号的初始相位角结果数据的存取模块;用于计算定点复数信号的相位角结果的计算模块;以及运用导频点的相位角信息进行均值计算,并对调制后信号的初始相位角结果进行超前相位噪声补偿的超前预测相位噪声补偿模块。本发明在硬件上采用超前预测相位噪声的方式对调制信号的相位进行相位补偿,确保通信硬件实现中的性能和精度要求,降低硬件资源消耗,降低硬件的功耗,全流水地执行硬件计算,能够符合通信系统中的传输特征,适合各个场景下的通信系统中硬件实现相位噪声补偿过程。

Patent Agency Ranking