-
公开(公告)号:CN108647779A
公开(公告)日:2018-10-12
申请号:CN201810318783.6
申请日:2018-04-11
Applicant: 复旦大学
Abstract: 本发明公开了一种低位宽卷积神经网络可重构计算单元。该单元包括:若干个可重构移位累加模块、多路选通器和量化处理模块;可重构移位累加模块包括控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器;本发明利用网络离散性构建控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器,其通过控制器判断当前周期的定点数数据和指数权重是否为零值,一旦检测当前周期的定点数数据和指数权重为零,则根据第一寄存器发出的第一触发信号和第二寄存器发出的第二触发信号控制所述第三寄存器输出当前周期移位累加数据;本发明既能实现4比特和8比特的灵活定点乘累加运算,还能提高移位累加运算速率,降低运算占用的内存和功耗。
-
公开(公告)号:CN108647779B
公开(公告)日:2021-06-04
申请号:CN201810318783.6
申请日:2018-04-11
Applicant: 复旦大学
Abstract: 本发明公开了一种低位宽卷积神经网络可重构计算单元。该单元包括:若干个可重构移位累加模块、多路选通器和量化处理模块;可重构移位累加模块包括控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器;本发明利用网络离散性构建控制器、第一寄存器、第二寄存器、第三寄存器和移位累加器,其通过控制器判断当前周期的定点数数据和指数权重是否为零值,一旦检测当前周期的定点数数据和指数权重为零,则根据第一寄存器发出的第一触发信号和第二寄存器发出的第二触发信号控制所述第三寄存器输出当前周期移位累加数据;本发明既能实现4比特和8比特的灵活定点乘累加运算,还能提高移位累加运算速率,降低运算占用的内存和功耗。
-
公开(公告)号:CN107644254A
公开(公告)日:2018-01-30
申请号:CN201710808978.4
申请日:2017-09-09
Applicant: 复旦大学
IPC: G06N3/08
Abstract: 本发明属于人工智能技术领域,具体为一种卷积神经网络权重参数量化训练方法及系统。本发明所述卷积神经网络包括卷积层、归一化层、缩放层、全连接层和池化层,该方法包括:根据所述归一化层的权重参数更新所述缩放层的;移除所述归一化层;采用指数量化方法对所述缩放层的权重参数进行量化;根据所述缩放层的权重参数的量化过程调节卷积层的权重参数;采用分组递归方法对所述卷积层的权重参数进行量化;根据所述缩放层的权重参数更新所述卷积层的权重参数;移除所述缩放层。采用本发明在不降低网络精度的同时,大幅降低网络计算复杂度、权重参数的存储容量和传输带宽,可获得无乘法器的硬件实现进而达到更快的计算加速。
-
公开(公告)号:CN117931727A
公开(公告)日:2024-04-26
申请号:CN202410071097.9
申请日:2024-01-17
Applicant: 复旦大学
IPC: G06F15/78 , G06F15/173
Abstract: 本发明属于集成电路设计技术领域,具体为一种片上网络系统拓扑生成方法。本发明的片上网络拓扑生成方法,包括:利用任务节点数和路由器端口数,采用饱和增长方式,计算出最终拓扑结构中的路由器数量范围(rmin,rmax),并生成非规则的单通路拓扑结构;为单通路连接的路由器增加与相邻路由器相连的链路,生成具有多种传输路径的多通路拓扑结构;在满足系统约束的条件下,将片上网络中延迟和面积作为性能指标,定义拓扑生成过程中的多目标函数,选取目标函数值较低、性能更优的拓扑结构;本发明可充分利用多核处理器中的资源和并行计算能力,同时解决了单目标约束条件生成的拓扑结构整体性能不均衡的问题。
-
公开(公告)号:CN116258884A
公开(公告)日:2023-06-13
申请号:CN202111483409.X
申请日:2021-12-07
Applicant: 复旦大学
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提供一种面向医学图像处理的端到端神经网络异构加速系统,其特征在于,包括:处理器以及可重构卷积神经网络FPGA加速核;其中,可重构卷积神经网络FPGA加速核具有片外存储器、片上参数存储器、片上偏置存储器、片上输入特征图存储器、可重构卷积计算模块输入接口、可重构卷积计算模块、可重构卷积计算模块输出接口、结果存储器,由可重构卷积计算模块输入接口将存储在片上存储系统中的权重数据、偏置数据以及输入特征图传输至可重构卷积计算模块,然后由可重构卷积计算模块对输入特征图进行图像的模态合成、分割以及分类的计算处理得到与输入特征图对应的输出结果,该端到端神经网络异构加速系统能够提高医学诊断的效率,并降低功耗。
-
公开(公告)号:CN108647773A
公开(公告)日:2018-10-12
申请号:CN201810358443.6
申请日:2018-04-20
Applicant: 复旦大学
IPC: G06N3/04
Abstract: 本发明属于图像处理算法的硬件设计技术领域,具体为一种可重构卷积神经网络的硬件互连架构。本发明的互连架构包括:数据和参数片外缓存模块,用于缓存输入的待处理图片中的像素数据和缓存进行卷积神经网络计算时输入的参数;基础计算单元阵列模块,用于实现卷积神经网络的核心计算;算术逻辑单元计算模块,用于处理所述基础计算单元阵列的计算结果,实现对下采样层、激活函数以及部分和累加。其中,基础计算单元阵列模块按照二维阵列的方式互连,在行方向上,共享输入数据,通过使用不同的参数数据实现并行计算;在列方向上,计算结果逐行传递,作为下一行的输入参与运算。本发明通过结构互连提升数据复用能力的同时,能够降低带宽的需求。
-
公开(公告)号:CN105205476A
公开(公告)日:2015-12-30
申请号:CN201510688167.6
申请日:2015-10-21
Applicant: 上海红神信息技术有限公司 , 复旦大学
IPC: G06K9/00
CPC classification number: G06K9/00268 , G06K9/00281
Abstract: 本发明涉及一种基于LBP特征的人脸识别硬件架构,其包括:LBP值计算模块;与所述LBP值计算模块连接的分块统计模块;与所述分块统计模块连接的乒乓缓存结构;以及与所述乒乓缓存结构连接的比较识别模块。本发明在不断接收人脸检测灰度图片的像素数据的同时对各个像素数据进行LBP数值计算,然后在对各个LBP数值进行直方统计的同时将已存储的各张人脸检测灰度图片的特征向量读出,并且在对各张人脸检测灰度图片的特征向量进行不断存储的同时将已存储的各张人脸检测灰度图片的特征向量读出,最后同时将多张人脸检测灰度图片与所有训练图片比较,从而实现人脸识别速度的大幅度提升。
-
公开(公告)号:CN118690701A
公开(公告)日:2024-09-24
申请号:CN202410743575.6
申请日:2024-06-11
Applicant: 复旦大学
Abstract: 本发明属于集成电路设计技术领域,具体为一种基于FPGA的神经网络加速器自动化设计方法。本发明该方法包括神经网络加速器的自动生成与快速验证两部分;生成部分包括:读取并解析XML格式表述的神经网络模型;采取分层分块策略实现资源的有效复用;采用层次化建模策略建立标准单元库,设计实现神经网络层级的硬件描述LayerHW;生成核心运算模块;运算模块与存储模块、控制模块协同构成数据流驱动的顶层架构系统。验证部分包括:在加速器设计中集成检测模块,用以监控特定层级的运算输出;评估硬件架构的正确性;当检测到输出差异,即刻触发机制,并精确定位并诊断加速器中潜在错误。本发明可大幅提高神经网络加速器的设计效率和验证速度。
-
公开(公告)号:CN118590241A
公开(公告)日:2024-09-03
申请号:CN202410758757.0
申请日:2024-06-13
Applicant: 复旦大学
Abstract: 本发明属于硬件结构的敏捷设计技术领域,具体为一种面向加解密算法的可重构硬件结构的敏捷设计框架。本发明框架包括参数选择模块、参数解析模块及硬件结构生成模块;硬件结构生成模块包括输入端生成模块、数据预处理模块生成模块、处理单元生成模块、输出端生成模块、互连网络生成模块。用户通过参数选择模块在给定的参数选项中选择需要设定的参数;参数解析模块对输入的参数进行解析后产生硬件结构生成模块需要的各种参数,并将对应的参数输出到各个模块中以生成硬件单元,然后利用生成的互连网络将各个硬件单元组合连接,实现完整的硬件架构的生成。该框架能够简化开发流程,实现全流程的自动化硬件设计,节省时间和人工成本。
-
公开(公告)号:CN108647773B
公开(公告)日:2021-07-23
申请号:CN201810358443.6
申请日:2018-04-20
Applicant: 复旦大学
IPC: G06N3/04
Abstract: 本发明属于图像处理算法的硬件设计技术领域,具体为一种可重构卷积神经网络的硬件互连架构。本发明的互连架构包括:数据和参数片外缓存模块,用于缓存输入的待处理图片中的像素数据和缓存进行卷积神经网络计算时输入的参数;基础计算单元阵列模块,用于实现卷积神经网络的核心计算;算术逻辑单元计算模块,用于处理所述基础计算单元阵列的计算结果,实现对下采样层、激活函数以及部分和累加。其中,基础计算单元阵列模块按照二维阵列的方式互连,在行方向上,共享输入数据,通过使用不同的参数数据实现并行计算;在列方向上,计算结果逐行传递,作为下一行的输入参与运算。本发明通过结构互连提升数据复用能力的同时,能够降低带宽的需求。
-
-
-
-
-
-
-
-
-