一种按照比特精度进行权重拆分的卷积运算加速方法

    公开(公告)号:CN112434801A

    公开(公告)日:2021-03-02

    申请号:CN202011192684.1

    申请日:2020-10-30

    Abstract: 本发明公开了一种按照比特精度进行权重拆分的卷积运算加速方法,包括:1)对于卷积核中每一个权重W,遍历比较其每一个比特位,标记出所有比特数据中的非零元素ck×k’,q,同时将此位置所属的权重Wk×k’对应的输入特征图数据FIk×k’标记,传递给FIk×k’,q’,未被标记处的FIk×k’,q’用“0”补上;2)对于每一个比特位,累加被归类给予当前比特的所有输入数据;3)将每q比特下的累加结果乘以2q;4)对移位计算获得的结果再次进行累加,以获得当前卷积运算的输出特征图数据FO;迭代地重复步骤1)至4),则可生成所有卷积通道的输出特征图数据。本发明使得卷积运算摆脱了对片上DSP资源的依赖,提高了卷积运算可以达到的计算并行度的上限。

    一种动态可重构处理器的数据缓存预取方法

    公开(公告)号:CN109783399B

    公开(公告)日:2021-01-19

    申请号:CN201811377387.7

    申请日:2018-11-19

    Abstract: 本发明公开了一种动态可重构处理器的数据缓存预取方法,包括以下步骤:1)可重构处理器缓存预取时,偏移量处理单元获得最佳偏移量,发送给预取地址生成模块;2)预取度调节模块通过预取精度与迭代总数据量这两个参量动态调节预取度,并发送给预取地址生成模块;3)预取地址生成模块根据基地址、最佳偏移量和动态预取度生成预取地址及数量。本发明提供的一种动态可重构处理器的数据缓存预取方法,该方法提前将数据从主存储器加载到缓存存储器上,降低了处理器访问数据时间,提升了预取准确度。

    一种可重构系统的缓存分区划分方法

    公开(公告)号:CN109710563B

    公开(公告)日:2020-11-10

    申请号:CN201811377375.4

    申请日:2018-11-19

    Abstract: 本发明公开了一种可重构系统的缓存分区划分方法,包括步骤:1)在多个粗粒度可重构阵列CGRA处理数据时,采用无效缩放FS管理共享片上缓存,以减少片外存储器带宽需求;2)在缓存分区时以无效缩放FS为基础,引入新数据——数据重叠量和迭代次数进行修正,以达到性能优化。本发明面向可重构处理器,在原先的分区方法中新加入了数据的重叠量和迭代次数的统计,对其进行修正和改进,一定程度上避免了多CGRA平台中CGRA之间数据的重叠和计算不平衡的不利影响,提高了在可重构处理器中缓存的性能。

    一种面向深度学习可重构处理器的片上互联结构

    公开(公告)号:CN109302357B

    公开(公告)日:2020-05-22

    申请号:CN201810877106.8

    申请日:2018-08-03

    Abstract: 一种面向深度学习可重构处理器的片上互联结构,包括NoC片上互联网络和多路复用器;NoC片上互联网络由多个相同节点组成,节点由FIFO模块、头地址寄存器、预路由模块、路由选择模块、请求发生器、仲裁器和交叉开关组成;多路复用器由地址解析器和多路选择器组成;FIFO模块由预取FIFO模块和预留FIFO模块组成;预取FIFO模块与头地址寄存器、请求发生器和交叉开关相连;预留FIFO模块与路由选择模块、仲裁器和交叉开关相连;预路由模块与头地址寄存器、仲裁器和路由选择模块相连;仲裁器与预路由模块、路由选择模块、请求发生器、交叉开关和FIFO模块相连。本发明片上互连网络结构,能够实现数据在运算单元之间的高效传递,减小数据传输延时,降低功耗代价。

    一种动态可重构处理器的数据缓存预取方法

    公开(公告)号:CN109783399A

    公开(公告)日:2019-05-21

    申请号:CN201811377387.7

    申请日:2018-11-19

    Abstract: 本发明公开了一种动态可重构处理器的数据缓存预取方法,包括以下步骤:1)可重构处理器缓存预取时,偏移量处理单元获得最佳偏移量,发送给预取地址生成模块;2)预取度调节模块通过预取精度与迭代总数据量这两个参量动态调节预取度,并发送给预取地址生成模块;3)预取地址生成模块根据基地址、最佳偏移量和动态预取度生成预取地址及数量。本发明提供的一种动态可重构处理器的数据缓存预取方法,该方法提前将数据从主存储器加载到缓存存储器上,降低了处理器访问数据时间,提升了预取准确度。

    一种用于动态可重构阵列的卷积运算数据流调度方法

    公开(公告)号:CN109409511A

    公开(公告)日:2019-03-01

    申请号:CN201811115052.8

    申请日:2018-09-25

    Abstract: 一种用于动态可重构阵列的卷积运算数据流调度方法,IRB通过对权值数据和图像数据进行调度,将矩阵内积拆分成行,映射到不同的PE单元内进行计算,计算所得到的结果累加,所得到的累加和在最后一级SPE内做激活,输出激活后的数据,完成调度。将权值数据不同行固定在不同的PE单元内,然后将图像数据逐行映射到每个PE单元与权值数据做卷积,中间数据暂存在PE单元内,然后逐级传输到下个PE单元进行累加,形成流水线,得到卷积数据。在计算CNN网络的过程中,IRB数据流可以提高输入图像数据和权值数据的复用率,减少数据的片内片外流动,有利于降低数据流动的功耗和时间,对性能和效能都有提升。

    一种实现原位存储、恒定几何结构、无访存冲突的NTT多项式乘法器

    公开(公告)号:CN119356638A

    公开(公告)日:2025-01-24

    申请号:CN202411503839.7

    申请日:2024-10-25

    Abstract: 本发明提供一种实现原位存储、恒定几何结构、无访存冲突的NTT多项式乘法器,将传统的恒定几何结构型NTT的错位存储方式转换为原位存储方式,采用奇数Bank存储结构来实现无访存冲突和原位存储。从而实现了与多项式长度N和NTT/INTT计算阶段无关的无冲突存储映射,统一存储结构和数据加载模式。这种结构为动态支持不同长度的多项式乘法提供了条件。此外,随着RAEPM支持的最大多项式长度N的增加,所提缓冲区的结构不需要修改,只需要增加Bank的深度,因此,可以在不重新编译的情况下执行不同次数的多项式乘法。

    一种基于局部敏感哈希的Transformer硬件加速器及加速方法

    公开(公告)号:CN119047513A

    公开(公告)日:2024-11-29

    申请号:CN202411138208.X

    申请日:2024-08-19

    Abstract: 本发明提供一种基于局部敏感哈希的Transformer硬件加速器及加速方法。本发明基于局部敏感哈希的Transformer加速方法,采用基于MinHash算法的局部敏感哈希筛选方案,MinHash算法能实现向量降维,从而在获取比较好的Q‑K向量对筛选效果的情况下,降低局部敏感哈希筛选的运算量,提高加速效率,更利用硬件实现。本发明基于局部敏感哈希的Transformer硬件加速器,针对Transformer网络自注意力机制运算特点所带来的硬件实现瓶颈问题,采用基于MinHash文本相似度算法的LSH筛选方案,不但能获取比较好的Q‑K向量对筛选效果,且效率高,硬件结构易于实现。

Patent Agency Ranking