-
公开(公告)号:CN119067184A
公开(公告)日:2024-12-03
申请号:CN202310666999.2
申请日:2023-05-31
Applicant: 北京大学
IPC: G06N3/063 , G06N3/0464 , G06F15/78 , G06V10/82 , G06V10/94
Abstract: 本发明公开了一种移动端设备目标检测系统的低功耗低资源占用跨网络层数据流方法,并基于此数据流方法进行对应的目标检测系统的硬件结构设计。本发明设计的YOLOv2目标检测网络推理过程经过量化重构之后主要卷积层、尺度缩放层、最大池化层、重排序层的计算。本发明提出的移动端设备目标检测系统执行YOLOv2网络推理的流程为:输入特征图输入线性卷积层电路执行并行MAC计算,得到卷积输出特征图;将卷积输出特征图输入尺度缩放层电路进行尺度缩放操作;如果后续为最大池化层,将卷积输出特征图输入最大池化层电路的最大池化操作;如果后续为重排序层,将卷积输出特征图输入重排序层电路进行重排序操作;按照量化重构后的YOLO网络结构,重复上述以卷积层为中心的片上跨网络层执行,直到完成网络结构中所有网络层的计算。本发明通过采用多层次数据复用策略和多层次缓冲设计,最大化输入特征图和多通道卷积核权重在片内的数据复用,减少大量额外产生功耗和延迟的片外数据重载,将目标检测系统的功耗和片上内存资源占用降低至最低,相比于其他相关文献的工作更适用于硬件资源和功耗都极其受限的移动端设备。
-
公开(公告)号:CN111464286A
公开(公告)日:2020-07-28
申请号:CN201910065552.3
申请日:2019-01-22
Applicant: 北京大学
IPC: H04L9/06
Abstract: 本发明涉及一种基于密钥门位置选择的逻辑加密防御方法,该方法主要包含两个部分:数据预处理和密钥门位置加密算法。具体指在加密过程中,先经由数据预处理的方式将密钥门位置标记并将延迟过长的路径剔除,接着,采用二阶段加密算法,做密钥门和主导门位置的植入。最终计算汉明距离和面积开销以评估加密电路的安全标准。该方法可提高门级网表加密效果,通过主导门植入算法使汉明距离大于50%,最大化输出模糊性,并可抵御密钥敏化攻击,同時降低面积开销,综合提升逻辑加密的安全评估要求,降低了芯片设计阶段IC盗窃、IP盗版的问题,其保护电路可有效防止设计信息被恶意窃取,因此能够普遍应用于逻辑加密,具有较强的实用性。
-
公开(公告)号:CN119067183A
公开(公告)日:2024-12-03
申请号:CN202310664369.1
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于张量处理的LSTM加速器计算单元的硬件结构。本发明设计的LSTM加速器计算单元主要包括矩阵向量乘法计算模块、Element‑wise计算模块以及激活函数模块。矩阵向量乘法计算模块采用新型脉动阵列结构,将乘法器与加法器分开,乘法器以树形拓扑形式连接。Element‑wise计算模块采用时分复用的方式,只需一个Sigmoid、一个Tanh、一个加法器和一个乘法器即可实现。激活函数模块中的Sigmoid和Tanh函数均采用分段线性函数逼近的方法实现。本发明根据LSTM神经网络模型中不同算子的计算特点进行针对性设计,有效降低了计算复杂度和内存消耗,节省了硬件资源,加速了LSTM网络模型的推理。
-
公开(公告)号:CN119065634A
公开(公告)日:2024-12-03
申请号:CN202310666919.3
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明实现了一种流水线含自校正因子的CORDIC算法协处理器硬件结构。CORDIC协处理器采用含自校正因子的CORDIC算法,算法通过对一个非恒定的缩放因子的迭代计算,并利用浮点乘法器实现更快的收敛,创新性地对该算法进行了流水线实现,并作为协处理器设计;设计解码单元用于微旋转的自适应选择,并使用一个全新的查找表;对浮点运算单元进行并行化设计提高了设计吞吐量,支持不同超越函数的乱序执行,以更快的速度完成三角函数、双曲函数、自然对数、平方根等多种超越函数的计算;本发明根据RISC‑V扩展指令,设计了各类超越函数的自定义扩展指令,完成了CORDIC协处理器的连接,实现了RISC‑V处理器对各类超越函数的计算,大大加快了RISC‑V处理器对三角函数等超越函数的计算速度。
-
公开(公告)号:CN119067179A
公开(公告)日:2024-12-03
申请号:CN202310667189.9
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于切比雪夫插值多项式的S型激活函数算法及其硬件结构。本发明设计的S型激活函数算法分为非多项式计算区间判断、子区间判断及获取系数、多项式计算三个步骤。基于该算法四次多项式实现的硬件电路由区间过滤模块、函数前处理模块、查找表模块、幂级数模块、浮点乘模块、浮点加模块、函数后处理模块组成,在单精度下满足忠实舍入(误差小于1ULP)的要求。通过将整个单精度浮点区间根据S型激活函数的渐进特性区分为多项式计算区间和非多项式计算区间,节省了硬件开销,降低了计算延时。本发明提出了一种新型多项式计算区间的子区间划分方法,能够在满足精度要求的前提下尽可能地降低查找表的资源占用。基于该算法实现的硬件结构以较小硬件开销为代价,能够解决S型激活函数浮点计算精度过低的问题,进而提高神经网络计算的精度。
-
公开(公告)号:CN119066308A
公开(公告)日:2024-12-03
申请号:CN202310664409.2
申请日:2023-05-31
Applicant: 北京大学
Abstract: 本发明公开了一种基于Vitis平台的定点可逆FFT高层次综合硬件加速器设计实现方法。本发明采用的FFT结构为split‑radix结构,该结构相比常用的基‑2和基‑4FFT算法具有最小的复杂度,同时保持着规律的迭代结构;为了实现定点FFT的可逆性,采用提升结构替代FFT计算过程中的蝴蝶结构,这种结构的应用可以将量化、舍入等操作施加在提升系数中而非节点值,可以保证算法的可逆性,同时无乘法近似进一步降低了算法复杂度;选择面向异构应用开发的Vitis平台构建硬件加速设计环境,该平台拥有高性能加速器卡,顶层具有AI推断智能生成优化应用,还可利用丰富的开发工具帮助开发者提高硬件设计效率;Vitis平台支持的高层次综合工具可以在软件层面进行代码结构优化,可直接将重构的软件代码智能映射为RTL语言,还可以针对不同模块进行不同性能指标的优化,相比传统FFT算法的FPGA开发效率更高;由此方法设计得到的FFT IP具有平台可重用、可移植性等特点,还可以应用于多场景的调用中,为其它开发者提供定点可逆FFT的功能IP;本发明充分发掘split‑radix整型可逆FFT算法的结构特性,创新性地提出基于Vitis平台的加速器卡对该算法进行高层次综合设计,得到的FFT算法IP核可以实现定点FFT算法的可逆性,同时该实现思路可以以更高的开发效率进行硬件加速器设计,以满足不同目标下的要求,突破传统方法开发基于FPGA开发FFT算法的瓶颈。
-
公开(公告)号:CN111464286B
公开(公告)日:2021-08-06
申请号:CN201910065552.3
申请日:2019-01-22
Applicant: 北京大学
IPC: H04L9/06
Abstract: 本发明涉及一种基于密钥门位置选择的逻辑加密防御方法,该方法主要包含两个部分:数据预处理和密钥门位置加密算法。具体指在加密过程中,先经由数据预处理的方式将密钥门位置标记并将延迟过长的路径剔除,接着,采用二阶段加密算法,做密钥门和主导门位置的植入。最终计算汉明距离和面积开销以评估加密电路的安全标准。该方法可提高门级网表加密效果,通过主导门植入算法使汉明距离大于50%,最大化输出模糊性,并可抵御密钥敏化攻击,同時降低面积开销,综合提升逻辑加密的安全评估要求,降低了芯片设计阶段IC盗窃、IP盗版的问题,其保护电路可有效防止设计信息被恶意窃取,因此能够普遍应用于逻辑加密,具有较强的实用性。
-
公开(公告)号:CN112685800A
公开(公告)日:2021-04-20
申请号:CN201911008728.8
申请日:2019-10-17
Applicant: 北京大学
IPC: G06F21/76
Abstract: 本发明公开了一种基于时间窗自比较的硬件木马检测方法,该方法主要包含三个部分:对待测电路时间窗区间电流数据叠加自比较,对选取电流结果进行数据后处理以及无金模型检测方法的实现。基于时间窗自比较的检测方法,其原理是利用了不同芯片之间工艺角不同,但同一块芯片工艺角相同的特点,通过选取同一块芯片的瞬态电流在相同电路状态下,不同时间窗区间的电流数值进行比较分析,可以有效克服工艺波动的影响。另外,本发明还利用马氏距离的优点将时间窗电流结果通过马氏距离进行数据后处理,增加硬件木马对电路旁路参数影响的区分度,进一步提高木马检测灵敏度。最后,本发明可以在没有金模型基准电路作参考的情况下实现木马检测,解决木马检测过程中对金模型参考电路过于依赖的问题,提高了木马检测效率。
-
-
-
-
-
-
-