基于卷积神经网络的图像硬件识别系统及部署方法

    公开(公告)号:CN113705803A

    公开(公告)日:2021-11-26

    申请号:CN202111011695.X

    申请日:2021-08-31

    Applicant: 南京大学

    Abstract: 本发明涉及基于卷积神经网络的图像硬件识别系统及部署方法,基于SoC平台实现MobileNetV1 SSD网络进行图像识别,平台内置ARM处理器和FPGA。ARM端完成全局调度任务,主要完成数据预处理,数据重排,网络推理,FPGA配置,以及后处理,包括非极大值抑制算法实现。ARM端整体策略采用按通道取数的方式以及MEC策略来降低数据重复率。FPGA端设计数据分发模块配合特殊尺寸的SRAM进行数据缓存,1*1和3*3两种卷积控制器,其中3*3卷积可配置成dw卷积和normal卷积两种模式,PE乘法阵列、加法树阵列,以及通道累加模块,大大提高资源的利用率。ARM端和FPGA端的交互通过调用驱动函数ioctl来实现,映射到硬件的Avalon接口实现数据与配置信息传输。本发明在板子资源受限的情况下有较好的优化。

    软硬协同的分段扫描式蒙哥马利模幂计算系统及可读存储介质

    公开(公告)号:CN114138235B

    公开(公告)日:2025-05-06

    申请号:CN202111480141.4

    申请日:2021-12-06

    Applicant: 南京大学

    Abstract: 本发明提供了一种软硬协同的分段扫描式蒙哥马利模幂计算系统。SoC平台内置ARM处理器和FPGA资源。ARM端主要做整体任务调度,以及#imgabs0#进制分段扫描算法所必备的数据预处理。将处理好的数据存入SRAM的特定地址中,之后启动FPGA进行运算。FPGA端实现模块化设计,包括地址生成模块,模逆模块,CIOS蒙哥马利模乘模块,分段扫描式蒙哥马利模幂控制模块等。本发明实现256bit模幂,采用6bit的分段扫描方式,需要进行(#imgabs1#)的数据预处理,存入SRAM。具体的蒙哥马利模乘模块采用CIOS算法实现,将大位宽256bit乘法进行64bit拆分,减少大位宽乘法所带来的面积消耗,同时对CIOS算法进行流水化方面的优化,将原来的两个内循环进行流水处理,仅增加少量周期完成两个内循环,提高执行效率。

    一种基于线性分段的softmax硬件实现方法

    公开(公告)号:CN113377332B

    公开(公告)日:2023-08-22

    申请号:CN202110591328.5

    申请日:2021-05-28

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于线性分段的softmax硬件实现方法,该方法实现的电路系统包括:控制器用于实现softmax运算所需的源数据的读取和分发,以及运算结果的存储;排序模块用于将输入进行排序,并找出最大值;自然指数模块用于计算输入源数据的e指数函数值;加法树模块用于将e指数模块的结果进行累加;除法模块用于计算每个e指数计算结果与累加结果的比值。该方法实现的电路系统通过分解计算过程、压缩计算区间,大幅降低了传统查找表方法实现softmax的参数,兼具了高性能和低硬件资源开销,可用于各种人工智能算法加速场景。

    基于卷积神经网络的图像硬件识别系统及部署方法

    公开(公告)号:CN113705803B

    公开(公告)日:2024-05-28

    申请号:CN202111011695.X

    申请日:2021-08-31

    Applicant: 南京大学

    Abstract: 本发明涉及基于卷积神经网络的图像硬件识别系统及部署方法,基于SoC平台实现MobileNetV1 SSD网络进行图像识别,平台内置ARM处理器和FPGA。ARM端完成全局调度任务,主要完成数据预处理,数据重排,网络推理,FPGA配置,以及后处理,包括非极大值抑制算法实现。ARM端整体策略采用按通道取数的方式以及MEC策略来降低数据重复率。FPGA端设计数据分发模块配合特殊尺寸的SRAM进行数据缓存,1*1和3*3两种卷积控制器,其中3*3卷积可配置成dw卷积和normal卷积两种模式,PE乘法阵列、加法树阵列,以及通道累加模块,大大提高资源的利用率。ARM端和FPGA端的交互通过调用驱动函数ioctl来实现,映射到硬件的Avalon接口实现数据与配置信息传输。本发明在板子资源受限的情况下有较好的优化。

    软硬协同的分段扫描式蒙哥马利模幂计算系统及可读存储介质

    公开(公告)号:CN114138235A

    公开(公告)日:2022-03-04

    申请号:CN202111480141.4

    申请日:2021-12-06

    Applicant: 南京大学

    Abstract: 本发明提供了一种软硬协同的分段扫描式蒙哥马利模幂计算系统。SoC平台内置ARM处理器和FPGA资源。ARM端主要做整体任务调度,以及进制分段扫描算法所必备的数据预处理。将处理好的数据存入SRAM的特定地址中,之后启动FPGA进行运算。FPGA端实现模块化设计,包括地址生成模块,模逆模块,CIOS蒙哥马利模乘模块,分段扫描式蒙哥马利模幂控制模块等。本发明实现256bit模幂,采用6bit的分段扫描方式,需要进行()的数据预处理,存入SRAM。具体的蒙哥马利模乘模块采用CIOS算法实现,将大位宽256bit乘法进行64bit拆分,减少大位宽乘法所带来的面积消耗,同时对CIOS算法进行流水化方面的优化,将原来的两个内循环进行流水处理,仅增加少量周期完成两个内循环,提高执行效率。

    一种基于线性分段的softmax硬件实现方法

    公开(公告)号:CN113377332A

    公开(公告)日:2021-09-10

    申请号:CN202110591328.5

    申请日:2021-05-28

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于线性分段的softmax硬件实现方法,该方法实现的电路系统包括:控制器用于实现softmax运算所需的源数据的读取和分发,以及运算结果的存储;排序模块用于将输入进行排序,并找出最大值;自然指数模块用于计算输入源数据的e指数函数值;加法树模块用于将e指数模块的结果进行累加;除法模块用于计算每个e指数计算结果与累加结果的比值。该方法实现的电路系统通过分解计算过程、压缩计算区间,大幅降低了传统查找表方法实现softmax的参数,兼具了高性能和低硬件资源开销,可用于各种人工智能算法加速场景。

Patent Agency Ranking