一种基于存算一体器件的Maxout激活函数运算加速装置及其方法

    公开(公告)号:CN119322910A

    公开(公告)日:2025-01-17

    申请号:CN202411070020.6

    申请日:2024-08-06

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于存算一体器件的Maxout激活函数运算加速装置及其方法。该装置包括:数据拆分模块,用于将数据拆分成整数部分和小数部分;数据截取模块,用于将整数部分和小数部分的数据分别以二进制形式拆分成固定比特长度,并传输给存算一体器件阵列,同时产生相应的移位控制信号传输给累加器模块;比较器模块,用于对阵列的输出结果进行比较,得到最大值并输出;累加器模块,用于对比较器模块的输出结果进行移位累加,并根据移位控制信号输出累加后的结果;权重队列存储模块,用于存储神经网络工作负载对应的权重,在完成一层计算之后更新存算于一体器件阵列中的权重。本发明具有低功耗、高能效、精度可调以及低计算延迟的优势。

    一种轻量化认证加密解密装置及其方法

    公开(公告)号:CN119094204A

    公开(公告)日:2024-12-06

    申请号:CN202411224636.4

    申请日:2024-09-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种轻量化认证加密解密装置及其方法。该装置包括加密电路、解密电路、认证输出模块和置换网络模块,其中加密电路包括依次相连的第一初始化模块、第一关联数据处理模块、明文处理模块和第一最终化模块;解密电路包括依次相连的第二初始化模块、第二关联数据处理模块、密文处理模块和第二最终化模块;明文处理模块与密文处理模块相连,第一最终化模块、第二最终化模块分别与认证输出模块相连;加密电路和解密电路中的各个模块均调用置换网络模块。本发明的硬件装置及其实现方法可以在节约硬件资源的基础上高效安全地执行任意长度明文的加密解密任务,并在抵御侧信道攻击方面具备一定的硬件防护能力。

    一种用于多核通讯的电路及方法
    93.
    发明公开

    公开(公告)号:CN119025467A

    公开(公告)日:2024-11-26

    申请号:CN202411069936.X

    申请日:2024-08-06

    Applicant: 南京大学

    Abstract: 本发明公开了一种用于多核通讯的电路及方法。其电路作为核间通讯模块部署在各个核上,用于在不同核之间以数据包的形式传递信息;该电路包括接收单元、发送单元以及全局寄存器;接收单元,用于接收来自核外的数据,并对该数据进行解析和处理,然后传输给核内;发送单元,用于接收来自核内的数据,并将核内数据进行解析和处理,然后传输至核外;全局寄存器,用于记录当前的工作模式与工作状态并分别连接所述接收单元与发送单元。本发明的电路具有配置灵活性强,结构简单,可扩展性强的优点,采用中断触发程序的方式,可配置性更强,可以应对各种复杂的数据传输需求。

    一种基于光电存算一体器件的GRU加速器及其方法

    公开(公告)号:CN118468953A

    公开(公告)日:2024-08-09

    申请号:CN202410495901.6

    申请日:2024-04-24

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于光电存算一体器件的GRU加速器及其方法。该加速器包括:数据预处理模块,用于对输入的序列信息进行预处理,转换为一维输入向量并传输给门控循环计算模块;门控循环计算模块,用于在每个时刻根据输入向量与前一时刻的状态对更新门、重置门的计算,并通过更新门、重置门控制输入向量与前一时刻的状态进行记忆与遗忘,计算出当前时刻的状态进行寄存并传输给预测输出模块;预测输出模块,用于对计算结果进行序列转换或分类操作,输出最终的预测结果。本发明在GRU进行矩阵向量乘时进行加速与优化,提高了矩阵向量乘法的效率,减少了由于密集计算过程中频繁访问片外存储带来的功耗与时间。

    一种适用于光电存算一体处理单元串扰的训练方法

    公开(公告)号:CN112836816B

    公开(公告)日:2024-02-09

    申请号:CN202110151815.X

    申请日:2021-02-04

    Applicant: 南京大学

    Abstract: 本发明公开了一种适用于光电存算一体处理单元串扰的训练方法。该方法的具体步骤为:下的光电存算一体处理单元神经网络功能模型,得到原始网络和串扰网络;(2)推理过程中,分别计算原始网络和串扰网络所输出的分类结果;(3)计算原始网络和串扰网络中间某一个或多个卷积层结果的曼哈顿距离,并且计算两个网络的分类结果的均方误差,得到串扰损失;(4)使用神经网络损失函数计算串扰网络的损失值,再加上串扰损失,得到最终的损失值;(5)通过神经网络反向传播算法,更新串扰网络中的权值。本发明使得光电存算一体处理单元训练模型在串扰条件下,能够更加准确地预测出正确的结果。(1)分别构建不包含串扰条件下和包含串扰条件(56)对比文件陈子龙;程传同;董毅博;张欢;张恒杰;毛旭瑞;黄北举.忆阻器类脑芯片与人工智能.微纳电子与智能制造.2019,(04),全文.李锟;曹荣荣;孙毅;刘森;李清江;徐晖.基于忆阻器的感存算一体技术研究进展.微纳电子与智能制造.2019,(04),全文.

    一种基于双曲CORDIC的立方根求解装置及求解方法

    公开(公告)号:CN111984226B

    公开(公告)日:2024-02-09

    申请号:CN202010869103.7

    申请日:2020-08-26

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于双曲CORDIC的立方根求解装置及求解方法。其方法是将立方根计算转换成可通过广义双曲坐标系下的CORDIC算法计算的对数和指数。其装置为:对数输入预处理模块将任意正数x转换成8k×r;对数计算模块,通过工作在向量模式的广义双曲CORDIC计算单元计算以8为基的双曲反正切值,进而通过移位和加法操作得到对数 指数预处理模块将拆成整数部分I和小数部分F;指数计算模块,通过工作在旋转模式的广义双曲CORDIC计算单元求以2为基的双曲正弦值和余弦值,进而通过加法操作得到指数2F,再左移I位可得到计算

    一种可部署大规模神经网络的存算一体装置及方法

    公开(公告)号:CN117236394A

    公开(公告)日:2023-12-15

    申请号:CN202310808927.7

    申请日:2023-07-03

    Applicant: 南京大学

    Abstract: 本发明公开了一种可部署大规模神经网络的存算一体装置及方法。该装置包括预处理模块、输入驱动电路模块、存算一体模块(包括SRAM阵列和Flash阵列)、读出电路模块、ADC模块和SIMD模块。预处理模块负责输入数据的预处理,经过预处理的数据输入到输入驱动电路中,再选择输入到SRAM阵列或Flash阵列中进行存储与计算,经过阵列计算输出的电流信号输入到读出电路中转换为电压信号,再输入到ADC模块中转换成数字信号,最后输入到SIMD模块进行数据处理后输出数字信号。本发明的装置结合Flash与SRAM的优点,兼具大容量与灵活性。本发明在存算一体装置上采用迁移学习的方法部署大规模神经网络,能够实现不同任务的部署。

    一种实现MLP-MIXER图像分类的方法及其装置

    公开(公告)号:CN116843977A

    公开(公告)日:2023-10-03

    申请号:CN202310843090.X

    申请日:2023-07-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种实现MLP‑MIXER图像分类算法的方法及其装置。该方法包括如下步骤:S1、预处理输入图像得到二维数据;S2、将数据层归一化防止训练过拟合,完成令牌MLP;S3、完成层归一化和通道MLP;S4、模型深度为N,重复N次S2‑S3,完成整个特征提取过程;S5、经过全局平均池化和全连接层完成分类。其中,令牌MLP和通道MLP中采用DRAM阵列完成转置,使用FLASH阵列完成MLP的矩阵乘运算,使用加法电路完成跳过连接。本发明降低了设计控制数据输入输出存算器件阵列的难度和部署权重参数到存算器件阵列的难度。

    读出电路优化的存算一体芯片及方法

    公开(公告)号:CN116189732B

    公开(公告)日:2023-07-21

    申请号:CN202310433555.4

    申请日:2023-04-21

    Applicant: 南京大学

    Abstract: 本发明公开了读出电路优化的存算一体芯片及方法,属于超大规模集成电路领域、存算一体领域。本发明的读出电路优化的存算一体芯片,通过校准计算分离法,将存算一体芯片读出电路分为计算读出电路与校准读出电路;独立的校准读出电路,可以提高存算一体芯片权重部署精度,提高芯片计算精度;独立的计算读出电路,由于功能要求减少,可以进一步优化面积、功耗、速度。进一步地,计算读出电路通过分段数模混合累加法,将存算一体电路实现的矩阵向量乘分两阶段实现,第一阶段采用模拟运算,第二阶段采用数字运算,降低读出电路功能、性能要求,优化存算一体芯片读出电路的面积、功耗、速度、动态范围,提高存算一体读出电路的通用性。

    一种基于DRAM的矩阵转置运算装置

    公开(公告)号:CN115995249B

    公开(公告)日:2023-07-21

    申请号:CN202310297958.0

    申请日:2023-03-24

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于DRAM的矩阵转置运算装置,属于超大规模集成电路以及DRAM领域。本发明的装置,包括DAC阵列、DRAM阵列、输入地址译码单元、输出地址译码单元、ADC阵列。DAC阵列将所需转置的矩阵的列向量的数字信号转化成模拟信号,DAC配合输入地址译码器,将所需转置的矩阵的列向量依次写入DRAM阵列的列方向,当完整的矩阵写入DRAM阵列后,ADC阵列将DRAM阵列中存储的所需转置的矩阵的行向量模拟信号转化成数字信号,ADC阵列配合输出地址译码器,从DRAM阵列行方向将矩阵的行向量依次读出,从而实现了矩阵的转置。本发明装置可以显著降低硬件架构的面积、功耗以及计算延时开销。

Patent Agency Ranking