-
公开(公告)号:CN108765471B
公开(公告)日:2021-12-07
申请号:CN201810268256.9
申请日:2018-03-29
Applicant: 北京航天自动控制研究所 , 中国运载火箭技术研究院
Abstract: 本发明涉及一种基于运算资源负载均衡技术的DSP图像匹配方法,将匹配图像与基准图像进行FFT行变换;对行变换结果进行FFT列变换,分别得到匹配图像FFT变换结果与基准图像FFT变换结果;将匹配图像FFT变换结果与基准图像FFT变换结果进行复数乘运算,再进行IFFT变换;计算匹配图像与基准图像的相关面。本发明利用DSP内部的EDMA与CPU的特性,均衡了EDMA与CPU的负载,当EDMA成为计算的资源瓶颈时,使用CPU均衡负载将数据重组成EDMA更加高效的搬移方式;当CPU计算成为计算资源的瓶颈时,则从算法结构以及计算顺序角度优化计算时间,并在尽量不损失精度的情况下进行算法的定点化处理。
-
公开(公告)号:CN114327676A
公开(公告)日:2022-04-12
申请号:CN202111632984.1
申请日:2021-12-28
Applicant: 北京航天自动控制研究所
Abstract: 本发明涉及一种面向卷积神经网络的高可靠加速器,包括指令分发模块和与其连接、受其控制的加载模块、路由模块、计算模块、冗余控制模块、和卸载模块;在指令分发控制模块的控制下,所述加载模块从外部加载输入特征数据和卷积核数据;路由模块将加载的数据分配给计算模块;所述计算模块中包括多个并列的计算核心,每个计算核心均用于接收分配数据进行卷积神经网络加速处理,输出处理结果;冗余控制模块将所述计算模块输出的多路计算结果输出到所述卸载模块,通过卸载模块将卷积神经网络加速处理结果卸载输出。本发明实现了卷积神经网络的加速处理,并兼顾卷积神经网络的高速处理和高可靠性处理的要求。
-
公开(公告)号:CN108765471A
公开(公告)日:2018-11-06
申请号:CN201810268256.9
申请日:2018-03-29
Applicant: 北京航天自动控制研究所 , 中国运载火箭技术研究院
CPC classification number: G06T7/30 , G06F9/505 , G06T2207/20056
Abstract: 本发明涉及一种基于运算资源负载均衡技术的DSP图像匹配方法,将匹配图像与基准图像进行FFT行变换;对行变换结果进行FFT列变换,分别得到匹配图像FFT变换结果与基准图像FFT变换结果;将匹配图像FFT变换结果与基准图像FFT变换结果进行复数乘运算,再进行IFFT变换;计算匹配图像与基准图像的相关面。本发明利用DSP内部的EDMA与CPU的特性,均衡了EDMA与CPU的负载,当EDMA成为计算的资源瓶颈时,使用CPU均衡负载将数据重组成EDMA更加高效的搬移方式;当CPU计算成为计算资源的瓶颈时,则从算法结构以及计算顺序角度优化计算时间,并在尽量不损失精度的情况下进行算法的定点化处理。
-
公开(公告)号:CN114330658B
公开(公告)日:2025-03-14
申请号:CN202111630592.1
申请日:2021-12-28
Applicant: 北京航天自动控制研究所
IPC: G06N3/0464 , G06N3/063 , G06N3/08
Abstract: 本发明涉及一种动态可重构的卷积神经网络多核加速器,包括指令分发模块和与其连接、受其控制的加载模块、路由模块、计算模块和卸载模块;加载模块从外部加载输入特征数据和卷积核数据;路由模块将加载的数据分配给计算模块进行卷积神经网络加速处理;计算模块将结果通过卸载模块输出;加载模块、路由模块、计算模块和卸载模块中包括多路的加载器、路由器、计算核心和卸载器;在卷积神经网络处理过程中,指令分发模块对多路加载器、路由器、计算核心和卸载器进行分组动态重构,在计算核心中加载特征数据和卷积核数据,执行并行卷积神经网络加速处理。本发明利用动态重构实现多个计算核心间的并行,提高卷积神经网络的大动态适应能力。
-
公开(公告)号:CN114265696B
公开(公告)日:2024-12-20
申请号:CN202111632969.7
申请日:2021-12-28
Applicant: 北京航天自动控制研究所
IPC: G06F9/50 , G06N3/0464 , G06N3/063 , G06N3/08
Abstract: 本发明涉及一种针对卷积神经网络最大池化层的池化器及池化加速电路,池化器包括第一选择器、第二选择器、比较器、常数寄存器和池化寄存器;比较器的第一输入端输入池化窗口中的特征数据,第二输入端接入第一选择器的输出数据,输出端连接到第二选择器;第一选择器的第一输入端连接常数寄存器,第二输入端连接外部的池化缓存从中读取数据,第三输入端连接池化寄存器输出端;第二选择器的第一输出端作为池化最终结果输出端,第二输出端连接外部的池化缓存向其写入数据,第三输出端连接池化寄存器的输入端。本发明以尽可能小的FPGA资源消耗量,实现常见CNN中最大池化层的高效计算,进而解决将CNN部署到嵌入式设备中遇到的实时性问题和功耗问题。
-
公开(公告)号:CN114327676B
公开(公告)日:2024-07-19
申请号:CN202111632984.1
申请日:2021-12-28
Applicant: 北京航天自动控制研究所
IPC: G06F9/445 , G06F9/50 , G06N3/0464 , G06N3/063 , G06N3/08
Abstract: 本发明涉及一种面向卷积神经网络的高可靠加速器,包括指令分发模块和与其连接、受其控制的加载模块、路由模块、计算模块、冗余控制模块、和卸载模块;在指令分发控制模块的控制下,所述加载模块从外部加载输入特征数据和卷积核数据;路由模块将加载的数据分配给计算模块;所述计算模块中包括多个并列的计算核心,每个计算核心均用于接收分配数据进行卷积神经网络加速处理,输出处理结果;冗余控制模块将所述计算模块输出的多路计算结果输出到所述卸载模块,通过卸载模块将卷积神经网络加速处理结果卸载输出。本发明实现了卷积神经网络的加速处理,并兼顾卷积神经网络的高速处理和高可靠性处理的要求。
-
公开(公告)号:CN118194907A
公开(公告)日:2024-06-14
申请号:CN202211604689.X
申请日:2022-12-13
Applicant: 北京航天自动控制研究所
Abstract: 本申请提供了一种可复用的三维矩阵直连与量化对齐算子设计方法,本申请面向ResNet、DenseNet等主流高性能神经网络中跳连处理操作。本申请能够复用同一算子单元,完成满足模型部署时任意量化位数下shortcut操作中矩阵对齐与运算操作,以及concat中沿通道方向拼接操作,运算并行度可以根据特征图大小及计算效率需求进行配置,提升了算子单元的通用性,同时节省了硬件资源。
-
公开(公告)号:CN115935888A
公开(公告)日:2023-04-07
申请号:CN202211552350.X
申请日:2022-12-05
Applicant: 北京航天自动控制研究所
Inventor: 周辉 , 王晓峰 , 谢宇嘉 , 李悦 , 赵雄波 , 吴松龄 , 盖一帆 , 路坤峰 , 李晓敏 , 张隽 , 弭寒光 , 董文杰 , 靳蕊溪 , 吴敏 , 赵冠杰 , 阳徽 , 费亚男 , 李洋 , 赵伟
IPC: G06F30/392 , G06N3/0464 , G06N3/063
Abstract: 本公开属于专用算法硬件电路设计技术领域,具体而言涉及一种神经网络加速系统包括:信息配置模块;和池化加速单元包括:控制模块,控制模块根据信息配置模块的参数信息得到张量块的信息以及地址信息;输入张量缓存模块,与控制模块相连,根据由控制模块得到的输入张量块地址信息缓存从外部存储模块的输入张量块;过程张量缓存模块,与控制模块相连,根据由控制模块得到的输出张量块地址信息缓存沿宽度方向池化的输出张量块,并提供沿高度方向池化的输入数据;池化器阵列模块,分别与输入张量缓存模块和过程张量缓存模块相连,进行宽度方向的池化和高度方向的池化,并沿通道方向进行并行计算,以缩短池化耗时。
-
公开(公告)号:CN115906972A
公开(公告)日:2023-04-04
申请号:CN202211551893.X
申请日:2022-12-05
Applicant: 北京航天自动控制研究所
Inventor: 周辉 , 谢宇嘉 , 王晓峰 , 李悦 , 赵雄波 , 吴松龄 , 盖一帆 , 路坤峰 , 李晓敏 , 张隽 , 弭寒光 , 董文杰 , 靳蕊溪 , 吴敏 , 赵冠杰 , 阳徽 , 费亚男 , 李洋 , 赵伟
IPC: G06N3/063 , G06N3/0464
Abstract: 本公开属于神经网络技术领域,具体而言涉及一种神经网络池化层加速方法,包括:获取配置参数信息;根据所述配置参数信息得到张量块的信息数据;所述张量块包括输入张量块和输出张量块,所述信息数据包括张量块的缓存地址;基于所述缓存地址获取输入数据;根据所述配置参数信息对所述输入数据进行宽度方向的池化,并将过程数据缓存;基于所述过程数据进行高度方向的池化;重复池化步骤,直至遍历所有输入张量块。以缩短池化运算的耗时。
-
公开(公告)号:CN114358266A
公开(公告)日:2022-04-15
申请号:CN202111683726.6
申请日:2021-12-28
Applicant: 北京航天自动控制研究所
Abstract: 本发明涉及一种数据流驱动的卷积神经网络加速器,包括:预处理模块、卷积模块、池化模块和指令分发模块;预处理模块用于加载输入特征执行卷积神经网络的预处理;卷积模块用于加载权重、偏置数据以及输入特征执行卷积层、全连接层或非线性激活层的计算;池化模块用于加载卷积模块的计算结果执行池化层的计算输出;指令分发模块用于对所述预处理模块、卷积模块和池化模块进行工作模式的配置和控制;在指令分发模块的工作模式配置和控制下,根据卷积神经网络结构,将预处理模块、卷积模块和池化模块进行动态的流式结构连接;实现对输入数据的卷积神经网络加速处理。本发明提高CNN加速器的可扩展性,提升系统的整体性能。
-
-
-
-
-
-
-
-
-