一种采用移位补偿的乘累加近似运算装置

    公开(公告)号:CN119538996A

    公开(公告)日:2025-02-28

    申请号:CN202411226567.0

    申请日:2024-09-03

    Abstract: 本发明提供了一种采用移位补偿的乘累加近似运算装置,包括原始权重解码模块,输入特征图重排网络模块和重排索引移位卷积RiSC算法运算模块,所述原始权重解码模块用于将输入的原始权重数据,解码生成基权重信号、权重偏差信号和交换网络控制信号:所述输入特征图重排网络模块用于根据所述原始权重解码模块生成的交换网络控制信号对输入的原始输入特征图序列进行重排,输出重排后的特征图序列;所述重排索引移位卷积RiSC算法运算模块用于将输入的所述重排后的特征图序列拆分成多组子序列且分别进行RiSC运算,按照RiSC算法生成计算结果并输出。本发明可以减少深度神经网络中乘累加操作中的乘法运算量以及模型权重存储量。

    一种兼容非对称多精度混合乘累加运算的运算单元

    公开(公告)号:CN115357214A

    公开(公告)日:2022-11-18

    申请号:CN202210923139.8

    申请日:2022-08-02

    Abstract: 本公开揭示了一种兼容非对称多精度混合乘累加运算的运算单元。这是一种兼容非对称数据格式的,多精度混合乘累加运算的运算单元设计。该PE单元,基于一组定点乘法器(4个5×5乘法器),针对不同精度的数据,对传入数据进行高低位拆分和符号位扩展,并通过控制指定乘法器的激活状态来降低功耗,并且通过精度模式选择和乘法器使能信号来实现对PE单元的空间复用和时间复用,最终完成不同精度数据的乘累加运算。该发明对于神经网络稀疏量化运算中的芯片资源闲置、功耗浪费和面积优化具有重要的意义。

    一种针对多核加速器的多卷积神经网络任务调度方法

    公开(公告)号:CN118734913A

    公开(公告)日:2024-10-01

    申请号:CN202410289489.2

    申请日:2024-03-13

    Abstract: 一种针对多核加速器的多卷积神经网络任务调度方法,所述方法包括如下步骤:S100:将多卷积神经网络任务进行抽象化,得到多个有向无环图DAG;S200:利用变异系数CV平衡节点的计算负载,得到多个新生成的具有负载平衡的DAG;S300:通过传输内容感知调度得到一个调度方案;S400:利用评估工具对步骤S300产生的调度方案进行运行时间评估,如果每个卷积神经网络的计算时延均满足其时延限制,则输出该调度方案;否则将时延超出限制的卷积神经网络对应的DAG拆分为两个子DAG,对所述两个子DAG重新进行传输内容感知调度。该方法充分考虑卷积神经网络的拓扑结构与多核加速器的硬件资源,优化了计算和通信的延时。

    一种兼容多维度矩阵乘法的运算单元

    公开(公告)号:CN115374399A

    公开(公告)日:2022-11-22

    申请号:CN202210924135.1

    申请日:2022-08-02

    Abstract: 本公开提出了一种兼容多维度矩阵乘法的PE阵列结构、运算单元及其MPU。本公开对PE阵列进行了功能扩展设计,其可以通过发射不同模式下的控制信号,支持多种维度矩阵乘法运算,在提高PE阵列的利用率的同时,缩短运算时间,节省数据搬移造成的能耗。此外,本公开对同一向量乘矩阵运算设计了低功耗和高性能两种模式,来满足不同应用场景的需求。

    一种基于row-wise分块的宏指令集架构

    公开(公告)号:CN119201229A

    公开(公告)日:2024-12-27

    申请号:CN202411226579.3

    申请日:2024-09-03

    Abstract: 一种基于row‑wise分块的宏指令集架构,包括:args、regs、load、store、remap和compute六个宏指令,args配置用于操作计算的关键参数,reg配置compute指令所需的宏寄存器,load和store控制芯片外存储器和片上存储之间的数据移动,remap用于将数据从一个宏寄存器重新映射到另一个宏寄存器,而无需进行实际的数据移动,compute宏指令用于启动算子计算,其中,regs和compute用于构造内核函数,其他宏指令用于准备操作数。该宏指令集架构能够在一条指令内执行复杂的操作。这种能力使得程序员可以用更少的指令实现更多功能,从而简化编程和调试过程。

    增强神经网络卷积运算数据复用度的高速缓存实现方法

    公开(公告)号:CN115374906A

    公开(公告)日:2022-11-22

    申请号:CN202210924541.8

    申请日:2022-08-02

    Abstract: 本公开揭示了增强神经网络卷积运算数据复用度的高速缓存实现方法,其在存储单元LM和矩阵运算单元MPU之间增加高速缓存LC,MPU每次读取数据时,先将所需数据的地址和读命令输入到LC中,查找是否有需要的数据,如果命中,则从LC中读取该数据;否则,将所需数据的地址和读命令输入到LM中,从LM中读取该数据,并且同时将该数据记录在LC中;其中,所述LM包括存储wt数据的LMWT和存储fm数据LMFM,所述高速缓存LC包括存储wt数据的LCWT和存储fm数据LCFM。由于本公开在LM和MPU之间增加了高速缓存LocalCache,进一步提升了数据的复用度,减少了从LM中读取数据的次数,降低处理器的功耗。

    一种卷积运算的硬件自动padding的方法

    公开(公告)号:CN115374394A

    公开(公告)日:2022-11-22

    申请号:CN202210924136.6

    申请日:2022-08-02

    Abstract: 本公开揭示卷积运算的硬件自动padding的方法及其数据存储格式。其中,该数据存储格式在数据存储过程中,会将整个输入数据ifm进行分段,每段数据进行8等分切分,得到8组数据,然后对每组数据进行等位置抽取,等位置数据排为一列,进行顺序存储。如此,这种存储格式具有更好的局部性。相比现有技术中的HWC格式,本公开将此种存储格式命名为HWC88格式。对于所述硬件自动padding的方法,在采用HWC88存储格式的数据左右两侧,通过对原数据进行复制、移位后自动补足padding数据,从而快速进行卷积运算,其中在显式存储padding时,将padding部分视为正常数据,不需要额外计算padding地址。

Patent Agency Ranking