-
公开(公告)号:CN119067184A
公开(公告)日:2024-12-03
申请号:CN202310666999.2
申请日:2023-05-31
Applicant: 北京大学
IPC: G06N3/063 , G06N3/0464 , G06F15/78 , G06V10/82 , G06V10/94
Abstract: 本发明公开了一种移动端设备目标检测系统的低功耗低资源占用跨网络层数据流方法,并基于此数据流方法进行对应的目标检测系统的硬件结构设计。本发明设计的YOLOv2目标检测网络推理过程经过量化重构之后主要卷积层、尺度缩放层、最大池化层、重排序层的计算。本发明提出的移动端设备目标检测系统执行YOLOv2网络推理的流程为:输入特征图输入线性卷积层电路执行并行MAC计算,得到卷积输出特征图;将卷积输出特征图输入尺度缩放层电路进行尺度缩放操作;如果后续为最大池化层,将卷积输出特征图输入最大池化层电路的最大池化操作;如果后续为重排序层,将卷积输出特征图输入重排序层电路进行重排序操作;按照量化重构后的YOLO网络结构,重复上述以卷积层为中心的片上跨网络层执行,直到完成网络结构中所有网络层的计算。本发明通过采用多层次数据复用策略和多层次缓冲设计,最大化输入特征图和多通道卷积核权重在片内的数据复用,减少大量额外产生功耗和延迟的片外数据重载,将目标检测系统的功耗和片上内存资源占用降低至最低,相比于其他相关文献的工作更适用于硬件资源和功耗都极其受限的移动端设备。
-
公开(公告)号:CN119067179A
公开(公告)日:2024-12-03
申请号:CN202310667189.9
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于切比雪夫插值多项式的S型激活函数算法及其硬件结构。本发明设计的S型激活函数算法分为非多项式计算区间判断、子区间判断及获取系数、多项式计算三个步骤。基于该算法四次多项式实现的硬件电路由区间过滤模块、函数前处理模块、查找表模块、幂级数模块、浮点乘模块、浮点加模块、函数后处理模块组成,在单精度下满足忠实舍入(误差小于1ULP)的要求。通过将整个单精度浮点区间根据S型激活函数的渐进特性区分为多项式计算区间和非多项式计算区间,节省了硬件开销,降低了计算延时。本发明提出了一种新型多项式计算区间的子区间划分方法,能够在满足精度要求的前提下尽可能地降低查找表的资源占用。基于该算法实现的硬件结构以较小硬件开销为代价,能够解决S型激活函数浮点计算精度过低的问题,进而提高神经网络计算的精度。
-
公开(公告)号:CN119066308A
公开(公告)日:2024-12-03
申请号:CN202310664409.2
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于Vitis平台的定点可逆FFT高层次综合硬件加速器设计实现方法。本发明采用的FFT结构为split‑radix结构,该结构相比常用的基‑2和基‑4FFT算法具有最小的复杂度,同时保持着规律的迭代结构;为了实现定点FFT的可逆性,采用提升结构替代FFT计算过程中的蝴蝶结构,这种结构的应用可以将量化、舍入等操作施加在提升系数中而非节点值,可以保证算法的可逆性,同时无乘法近似进一步降低了算法复杂度;选择面向异构应用开发的Vitis平台构建硬件加速设计环境,该平台拥有高性能加速器卡,顶层具有AI推断智能生成优化应用,还可利用丰富的开发工具帮助开发者提高硬件设计效率;Vitis平台支持的高层次综合工具可以在软件层面进行代码结构优化,可直接将重构的软件代码智能映射为RTL语言,还可以针对不同模块进行不同性能指标的优化,相比传统FFT算法的FPGA开发效率更高;由此方法设计得到的FFT IP具有平台可重用、可移植性等特点,还可以应用于多场景的调用中,为其它开发者提供定点可逆FFT的功能IP;本发明充分发掘split‑radix整型可逆FFT算法的结构特性,创新性地提出基于Vitis平台的加速器卡对该算法进行高层次综合设计,得到的FFT算法IP核可以实现定点FFT算法的可逆性,同时该实现思路可以以更高的开发效率进行硬件加速器设计,以满足不同目标下的要求,突破传统方法开发基于FPGA开发FFT算法的瓶颈。
-
公开(公告)号:CN119067873A
公开(公告)日:2024-12-03
申请号:CN202310667087.7
申请日:2023-05-31
Applicant: 北京大学
IPC: G06T5/70 , G06T5/10 , G06T5/20 , G06T5/30 , G06T7/13 , G06T7/136 , G06T7/155 , G06V10/762 , G06V10/74 , G06T1/20 , G06F7/533 , G06F7/53 , G06F7/508
Abstract: 本发明公开了一种软硬件综合优化的BM3D图像去噪算法和硬件设计方法。软件上提出一种改进的Canny算子边缘检测方法,采用形态滤波使亮暗更加明显,双值滤波中使用最小类内方差和最大类间方差确定单阈值,确认边缘信息;采用SFCM算法对图片平坦区域进行类划分加速算法;硬件设计中对延时和边缘区域进行优化设计,提出并行计算的硬件结构加快速度,在三维变换和硬阈值滤波处插入流水线,复用资源,提出一种基于booth算法和华莱士树结构的低功耗乘法器设计。对BM3D原算法进行算法优化、硬件设计、优化输出图像效果,减少运行时间和耗费资源。整个流程高效、可移植性强,打破了传统BM3D算法因资源和耗时无法应用的瓶颈。
-
公开(公告)号:CN119065634A
公开(公告)日:2024-12-03
申请号:CN202310666919.3
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明实现了一种流水线含自校正因子的CORDIC算法协处理器硬件结构。CORDIC协处理器采用含自校正因子的CORDIC算法,算法通过对一个非恒定的缩放因子的迭代计算,并利用浮点乘法器实现更快的收敛,创新性地对该算法进行了流水线实现,并作为协处理器设计;设计解码单元用于微旋转的自适应选择,并使用一个全新的查找表;对浮点运算单元进行并行化设计提高了设计吞吐量,支持不同超越函数的乱序执行,以更快的速度完成三角函数、双曲函数、自然对数、平方根等多种超越函数的计算;本发明根据RISC‑V扩展指令,设计了各类超越函数的自定义扩展指令,完成了CORDIC协处理器的连接,实现了RISC‑V处理器对各类超越函数的计算,大大加快了RISC‑V处理器对三角函数等超越函数的计算速度。
-
公开(公告)号:CN119067183A
公开(公告)日:2024-12-03
申请号:CN202310664369.1
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于张量处理的LSTM加速器计算单元的硬件结构。本发明设计的LSTM加速器计算单元主要包括矩阵向量乘法计算模块、Element‑wise计算模块以及激活函数模块。矩阵向量乘法计算模块采用新型脉动阵列结构,将乘法器与加法器分开,乘法器以树形拓扑形式连接。Element‑wise计算模块采用时分复用的方式,只需一个Sigmoid、一个Tanh、一个加法器和一个乘法器即可实现。激活函数模块中的Sigmoid和Tanh函数均采用分段线性函数逼近的方法实现。本发明根据LSTM神经网络模型中不同算子的计算特点进行针对性设计,有效降低了计算复杂度和内存消耗,节省了硬件资源,加速了LSTM网络模型的推理。
-
-
-
-
-