一种基于离线强化学习的片上网络近似控制系统

    公开(公告)号:CN115277563B

    公开(公告)日:2024-03-19

    申请号:CN202210636087.6

    申请日:2022-06-07

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于离线强化学习的片上网络近似控制系统。本发明采用离线强化学习算法,利用软硬件协同手段,在软件端训练,在硬件端部署;片上网络中设置全局近似控制器用来部署决策神经网络;其余节点利用局部数据控制器根据全局近似控制器的发送的信息调整数据近似率。本发明通过离线强化学习算法对决策网络进行训练,将训练完成的决策网络部署至硬件中,能在不同的应用条件下感知网络拥塞状态,动态调整数据近似率使得网络在传输质量和网络性能两者之间达到良好平衡。

    一种基于脉冲神经网络的无乘法卷积调度器及其硬件实现方法

    公开(公告)号:CN113128675B

    公开(公告)日:2023-12-26

    申请号:CN202110431741.5

    申请日:2021-04-21

    Applicant: 南京大学

    Abstract: 本发明提出一种基于脉冲神经网络的无乘法卷积调度器及其硬件实现方法,利用SNN基于事件驱动的特性,通过硬件来实现SNN中的卷积计算,为图像分割中的SNN提出了一种有效的卷积调度方法;该方法通过FIFO缓存输入的神经元状态,并送入“1”过滤器实现有效状态的过滤,避免无效状态参与计算,提高计算效率,且无需乘法计算;根据数据流特点,特殊考虑并行存储结构,使用较少的存储资源达到并行存储,以适配计算单元的高并行算力;计算过程中每个time step的结果原位存回,提高存储资源利用率;最终可实现基于脉冲神经网络任意规格输入的3×3卷积计算,支持64路并行计算;该方法提高了神经网络中卷积计算的性能,降低计算复杂度和功耗,同时具有较高灵活性。

    一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统

    公开(公告)号:CN113760660B

    公开(公告)日:2023-08-11

    申请号:CN202111043131.4

    申请日:2021-09-07

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于长短时记忆神经网络的三维多核芯片温度预测方法及系统,其中所述方法采用的模型通过长短时记忆神经网络层与全连接层相结合实现,其中长短时记忆神经网络层接收历史温度信息作为输入;全连接层输出多个时间长度后的预测温度信息。本发明提出的方法可为多核芯片中动态温度管理模型提供时间与空间的热分析:即预测节点的温度变化和三维多核芯片的温度分布。本发明通过神经网络对三维多核芯片中温度变化模式的学习能确定潜在热点的位置,较为准确地对每个节点进行多步长温度预测,从而便于动态温度管理模型对芯片整体温度分布情况的掌握,进一步提前进行温度调控,避免热点的产生。

    一种基于SIMD架构的堆栈式自编码器及编码方法

    公开(公告)号:CN109978143B

    公开(公告)日:2023-07-18

    申请号:CN201910251530.6

    申请日:2019-03-29

    Applicant: 南京大学

    Abstract: 本发明的基于SIMD架构的堆栈式自编码器及编码方法,自编码器包括DMA接口模块、神经网络推理模块以及神经网络训练模块;DMA接口模块主要通过DMA方式从片外DDR读入的数据按分区方式存入片上SRAM,并将最后的运算结果通过DMA方式写回DDR;神经网络的推理运算模块使用已经训练好的权重与偏置对新的样本进行分类推理运算;神经网络的训练模块主要负责从神经网络最后一层逐层向前更新神经网络的权重和偏置。有益效果:本发明的自编码器支持的神经网络层数没有限制,因此支持大规模神经网络的推理与训练,并且通过乒乓操作实现部分计算时间和访存时间的掩盖,有着良好的实用意义和广泛的应用前景。

    3D架构垂直沟道纳米硅环栅存储器的制备方法

    公开(公告)号:CN116435332A

    公开(公告)日:2023-07-14

    申请号:CN202111635960.1

    申请日:2021-12-29

    Applicant: 南京大学

    Abstract: 本发明涉及一种3D环栅量子点存储器,属于非挥发性存储器技术领域。该存储器的特征在于:其特征在于:以非晶硅作为存储器件沟道,所述非晶硅纳米柱的上下两端作为浮栅存储器沟道的源漏电极,以及环绕在非晶硅柱侧壁的纳米硅浮栅层,所述纳米硅浮栅由隧穿层、纳米硅层和高K介质控制层组成;在控制层表面沉积金属层,形成栅电极;本发明与当前的微电子工艺技术相兼容,纳米硅浮栅存储器由于其分立电荷存储的优势,在写入和擦除过程中电荷可以独立存储在彼此分立的纳米硅中,另外纳米硅浮栅存储器的隧穿层较薄,可以在较小的工作电压下完成写入和擦除的工作,实现低功耗。

    一种基于k-means++质心初始化的k-means算法硬件实现方法及系统

    公开(公告)号:CN111027585B

    公开(公告)日:2023-04-07

    申请号:CN201911026337.9

    申请日:2019-10-25

    Applicant: 南京大学

    Abstract: 本发明涉及一种基于k‑means++质心初始化的k‑means算法硬件实现方法及系统,包括主控制模块,为算法实现提供控制和重构信息;存储控制模块,控制数据传输和存储;质心初始化模块,基于k‑means++算法初始化质心;聚类运算模块,基于距离比较获得聚类结果;质心更新模块,通过各类别平均值计算更新质心;阈值比较模块,用于判断质心是否收敛。该硬件实现方法充分利用硬件的并行性,用k‑means++质心初始化方案替代随机质心初始化方案,提高算法收敛速度;采用硬件友好的距离计算方案;支持可重构,通过配置可重构计算阵列构建各模块运算单元;支持不同特征数的样本进行多类别聚类计算。

    面向Wimax协议的QC-LDPC译码器译码方法及系统

    公开(公告)号:CN113612575B

    公开(公告)日:2022-10-18

    申请号:CN202110737035.3

    申请日:2021-06-30

    Applicant: 南京大学

    Abstract: 本发明提出了一种面向Wimax协议的QC‑LDPC译码器译码方法及系统,基于提出的面向Wimax协议的QC‑LDPC译码器,利用存储的QC‑LDPC校验矩阵信息,简化了译码器的译码计算复杂度,同时节省了硬件计算资源。其中,译码过程采用基于Offset Min‑sum的行分层译码算法作为译码方法,使得硬件兼容性更广、且具备易于实现的优点。通过流水化设计,对校验矩阵信息读取、映射,实现了高效流水LDPC译码;最终可支持IEEE 802.16e通信协议下,1/2码率19种码长的LDPC译码运算;因此本发明具有硬件复杂度低,存储资源利用率高的特点,以及可实现高吞吐率LDPC译码运算。

    软硬协同的分段扫描式蒙哥马利模幂计算系统及可读存储介质

    公开(公告)号:CN114138235A

    公开(公告)日:2022-03-04

    申请号:CN202111480141.4

    申请日:2021-12-06

    Applicant: 南京大学

    Abstract: 本发明提供了一种软硬协同的分段扫描式蒙哥马利模幂计算系统。SoC平台内置ARM处理器和FPGA资源。ARM端主要做整体任务调度,以及进制分段扫描算法所必备的数据预处理。将处理好的数据存入SRAM的特定地址中,之后启动FPGA进行运算。FPGA端实现模块化设计,包括地址生成模块,模逆模块,CIOS蒙哥马利模乘模块,分段扫描式蒙哥马利模幂控制模块等。本发明实现256bit模幂,采用6bit的分段扫描方式,需要进行()的数据预处理,存入SRAM。具体的蒙哥马利模乘模块采用CIOS算法实现,将大位宽256bit乘法进行64bit拆分,减少大位宽乘法所带来的面积消耗,同时对CIOS算法进行流水化方面的优化,将原来的两个内循环进行流水处理,仅增加少量周期完成两个内循环,提高执行效率。

    一种离散高斯噪声的并行生成方法及硬件结构

    公开(公告)号:CN113986196A

    公开(公告)日:2022-01-28

    申请号:CN202111240344.6

    申请日:2021-10-25

    Applicant: 南京大学

    Abstract: 本发明提供了一种离散高斯噪声的并行生成方法及硬件结构,属于密码学算法硬件设计领域,包括:真随机数缓冲区、随机比特寄存器、比特搜索模块、结果输出处理模块、控制状态机、结果缓冲区。本发明的提出了一种基于Knuth‑Yao算法的离散高斯噪声的生成方法及硬件结构,可以生成格密码学中所需要的离散高斯噪声。本发明在保证噪声分布的密码学安全性的同时,降低了采样时延,提高了并行度,并减少了查找的空间复杂度,提高了格密码算法的运行效率。

    一种基于迭代和可重构方式的复协方差矩阵计算系统

    公开(公告)号:CN109446478B

    公开(公告)日:2021-09-28

    申请号:CN201811284263.4

    申请日:2018-10-30

    Applicant: 南京大学

    Abstract: 本发明涉及基于迭代和可重构方式的复协方差矩阵计算系统,包括片上SRAM存储器、片外DDR存储器、可重构单元、DMA控制器以及加速核,所述加速核包括:矩阵协方差运算模块,通过迭代计算方式轮询片上SRAM存储器的各区域源数据,并计算出下三角协方差矩阵;共轭对称模块,根据协方差矩阵的共轭对称性质,将下三角协方差矩阵通过地址映射和重构存储的方式得出完整的复协方差矩阵,形成最终的运算结果;DMA接口函数模块,将通过DMA方式从片外DDR存储器读入的数据按分区方式存入片上SRAM存储器。有益效果:本发明支持任意列数的复矩阵进行协方差运算,降低了传统硬件实现方式的源数据计算量以及多次将结果数据写回DDR的时间。

Patent Agency Ranking