一种基于改进Schoolbook算法的Saber硬件加速器及加解密方法

    公开(公告)号:CN117608520A

    公开(公告)日:2024-02-27

    申请号:CN202311574160.2

    申请日:2023-11-23

    Abstract: 本发明提供一种基于改进Schoolbook算法的Saber硬件加速器及加解密方法,本发明基于Winograd的高并行度且可伸缩的Schoolbook算法构建了一种高吞吐率、可伸缩的Saber硬件加速器,设计了一个高度并行的流水线结构,并在硬件实现中通过并行核模块展开了Schoolbook的内循环,从而避免了多项式的重复读取。此外,得益于高度并行的流水线结构,每个循环只产生一个输出,避免了中间计算结果的读写,减少了对片上存储器的需求。

    一种基于DSP的混合位宽加速器及融合计算方法

    公开(公告)号:CN114239819B

    公开(公告)日:2023-09-26

    申请号:CN202111605030.1

    申请日:2021-12-24

    Abstract: 本发明提供一种基于高位宽DSP的混合位宽加速器及融合计算方法,以DSP作为主要计算单元,对乘数和被乘数分别连接,并分别进行移位即插入不同的隔离位宽,可以实现多组任意低位宽乘累加运算。本发明加速器支持任意乘法并行度,最大化DSP计算性能;支持任意位宽的乘数和被乘数,支持乘数固定和不固定两种情况,通用性更好,适用范围广。

    用于图神经网络推理的动态可重构PE单元及PE阵列

    公开(公告)号:CN113705773B

    公开(公告)日:2023-09-19

    申请号:CN202110853134.8

    申请日:2021-07-27

    Abstract: 本发明提供用于图神经网络推理的动态可重构PE单元及PE阵列,本发明用于图神经网络推理的动态可重构PE单元,提取多种不同图神经网络算法中的共同算子,形成共同的运算单元,根据图神经网络算法需要通过多路选择器输入不同图神经网络算法算法的数据,通过运算单元运算后由多路分配器分配输出。计算单元在配置信息的控制下动态地在不同算法数据流之间切换。从而动态可重构PE单元能适用于多种不同的图神经网络算法,在配置信息的控制下动态地在不同算法数据流之间切换。

    面向Winograd参数可调的卷积张量优化方法及系统

    公开(公告)号:CN113627592B

    公开(公告)日:2023-09-19

    申请号:CN202110883108.X

    申请日:2021-08-02

    Abstract: 本发明提供面向Winograd参数可调的卷积张量优化方法及系统,对输入图像张量和卷积核张量分别进行拆分,使其能适应计算单元为任意Winograd F(m,n)的硬件后端,扩展Winograd F(m,n)卷积加速算法只针对较小的卷积核和步长的使用情况,使对任意尺寸的输入图像张量和任意尺寸、步长的卷积核张量均能实现Winograd F(m,n)算法的加速,本发明提出的卷积张量优化方法使网络模型迅速灵活部署到计算单元为任意Winograd F(m,n)的硬件后端,降低网络模型和硬件后端加速器设计的耦合。

    一种基于Toom-Cook环上多项式乘法的加解密方法及环上多项式乘法器

    公开(公告)号:CN116561819A

    公开(公告)日:2023-08-08

    申请号:CN202310536435.7

    申请日:2023-05-12

    Abstract: 本发明提供一种基于Toom‑Cook环上多项式乘法的加解密方法及环上多项式乘法器,本发明加解密方法基于改进的Toom‑Cook环上多项式乘法,将原算法中的多项式重组和多项式模运算两个步骤集成到插值过程中,这使得Toom‑Cook算法在插值后直接获得环上多项式乘法的最终乘法结果,而不需要其他步骤,简化了算法流程;同时改变插值矩阵,将多项式重组和多项式模映射到插值矩阵中,消除了大量冗余的算术运算,使后处理的算术运算次数比原Toom‑Cook算法减少了至少33.33%,从而有效降低了后处理局部算法的时间复杂度和空间复杂度,提高加密解密速度,节省大量时间,能减小硬件实现中处理单元阵列的尺寸。

    基于多分支卷积神经网络的行人识别方法

    公开(公告)号:CN111582091B

    公开(公告)日:2023-05-02

    申请号:CN202010345173.2

    申请日:2020-04-27

    Abstract: 本发明公开了一种基于多分支卷积神经网络的行人识别方法,包括步骤:1)初始化多分支卷积神经网络;2)边训练边筛选卷积核,作为构建块添加到各分支,构成精度和运算量可分离的多分支卷积神经网络;3)设置时间监测点和精度预估值,验证精度,如果低于精度预估值,则返回步骤2),如果和预估值相差5%以内则停止,相差大于5%则集训训练;4)继续训练,筛选多分支卷积神经网络的全连接层的超参数;5)最后设计生成的模型,存储到移动摄像头的硬件处理架构中,离线推理其拍摄到的视频或者图像中是否有人出现。本发明为行人识别设计多分支的卷积神经网络架构,加宽网络宽度,改进模型推理识别行人的整体网络性能。

Patent Agency Ranking