粗粒度可重构阵列数据流处理器的高效执行方法及系统

    公开(公告)号:CN116303226A

    公开(公告)日:2023-06-23

    申请号:CN202310159302.2

    申请日:2023-02-14

    Abstract: 本发明提出一种粗粒度可重构阵列数据流处理器的高效执行方法和系统,包括:待执行程序的有向数据流图中节点为代码段,连线为节点间依赖关系;粗粒度可重构阵列数据流处理器的PE从全局缓存中加载每个节点的配置信息、操作指令和操作数;调度前继依赖已满足的节点作为当前节点开始执行,并将当前节点的代码段分为多个执行阶段;调度当前节点的下个循环开始执行,执行时监测当前节点的下个阶段对应的粗粒度可重构阵列数据流处理器部件已经空闲,则当前节点进入下一个执行阶段,并用粗粒度可重构阵列数据流处理器部件执行其下一个执行阶段;运行完有向数据流图中所有节点的循环后,从粗粒度可重构阵列数据流处理器的全局缓存中输出当前运行结果。

    一种基于数据流架构的多精度神经网络计算装置以及方法

    公开(公告)号:CN113298245B

    公开(公告)日:2022-11-29

    申请号:CN202110631644.0

    申请日:2021-06-07

    Abstract: 本发明实施例提供了一种基于数据流架构的多精度神经网络计算装置,包括:微控制器以及与之连接的PE阵列,PE阵列的每个PE中配置有原始精度和精度低于原始精度的多种低精度的计算部件,精度越低的计算部件中配置越多并行的乘法累加器以充分利用片上网络带宽,为每个PE中每种低精度的计算部件配置充足的寄存器以避免数据溢出;所述微控制器被配置为:响应于对特定卷积神经网络的加速请求,控制PE阵列中与所述特定卷积神经网络精度匹配的原始精度或者低精度的计算部件执行相应的卷积操作中的运算并将中间计算结果存储至相应的寄存器。从而可以为不同精度的卷积神经网络进行加速,降低计算时延和能耗,提高用户体验。

    数据流架构优化方法、装置、电子设备

    公开(公告)号:CN115202666A

    公开(公告)日:2022-10-18

    申请号:CN202210717973.1

    申请日:2022-06-23

    Abstract: 本发明提出一种数据流架构优化方法、装置、电子设备,所述方法包括:构建表征粗粒度可重构阵列架构的有向数据流图;确定所述有向数据流图中的关键路径,作为初始关键路径;对所述初始关键路径上的所有节点判断是否需要优化;识别出所述初始关键路径上需要优化的节点进行优化。该方法保证了粗粒度数据流图中的各个节点之间的平衡,使得各个节点占用的执行时间相近,进一步提高了CGRA中PE的利用率提高,进而实现了粗粒度可重构阵列CGRA数据流架构的优化。

    一种片上带宽动态分配方法及系统

    公开(公告)号:CN112311695B

    公开(公告)日:2022-09-30

    申请号:CN202011134155.6

    申请日:2020-10-21

    Abstract: 本发明提出一种片上带宽动态分配方法和系统,包括:发射模块接受存储系统的任务请求,将请求封装为发射块,将多个发射块组织为堆结构,动态维护堆结构,向分配模块传输发射块;分配模块由带窗口的队列组成,其功能为接受发射块,为发射块匹配等待队列,更新发射块内容并将其回传存储系统;每个宽度的带宽对应一个等待队列,等待队列中是需要传输的数据。本发明采用硬件与软件协同的方式带宽分配方法,可以提高带宽的利用率,增加芯片的吞吐率,实现高通量的计算需求;本发明控制逻辑、结构简单,不占用计算资源,实现简单,在多种芯片系统中具有普适性。

    一种用于SIMD计算指令的交互型运算装置及执行方法

    公开(公告)号:CN114860319A

    公开(公告)日:2022-08-05

    申请号:CN202210518572.3

    申请日:2022-05-12

    Abstract: 本发明提供一种用于SIMD计算指令的运算装置,包括:数据打包流水寄存器,用于接收并寄存待处理SIMD计算指令以及指令对应的一组操作数;定点译码器,用于对定点整型指令对应的操作数进行译码重排处理并传输到定点整型运算器;定点整型运算器;用于对定点译码器处理后的操作数执行整型运算;浮点译码器,用于对浮点指令对应的操作数进行译码重排处理并根据指令将重排后的操作数传送到浮点乘加器或浮点除法器;浮点乘加器,用于对浮点译码器处理后的操作数进行浮点乘加计算;浮点除法器,用于对浮点译码器处理后的操作数进行浮点除法计算;运算结果仲裁器,用于对计算部件的运算结果进行选择以输出最终SIMD计算结果。

    基于阻变存储器的通用区块链应用处理加速方法及系统

    公开(公告)号:CN110890120B

    公开(公告)日:2021-08-31

    申请号:CN201911001197.X

    申请日:2019-10-21

    Abstract: 本发明提出一种基于阻变存储器的通用区块链应用处理加速方法及系统,包括:判断当前程序是否为区块链加速处理程序,若是,则将当前程序发送至包括存储处理器和阻变存储器的HMC存储器端,其中存储处理器集成在HMC存储器端的逻辑控制层,阻变存储器集成在HMC存储器端的立体存储层,存储处理器通过控制立体存储层,以数据流运行的方式完成对当前程序的近存储计算,得到当前程序的执行结果,并将其回传至主处理器端,否则主处理端中的乱序核根据当前程序,以控制流运行的方式执行当前程序,得到执行结果。本发明具有较高的执行速度和显著的能效比提升,并结合数据流任务分配和执行模式,能够获得更高的执行效率和能效。

    一种卷积神经网络加速方法及系统

    公开(公告)号:CN112288085A

    公开(公告)日:2021-01-29

    申请号:CN202011147836.6

    申请日:2020-10-23

    Abstract: 本发明提出一种卷积神经网络加速方法及系统,包括将待特征分析的图像作为输入激活输入卷积神经网络,分解该卷积神经网络中滤波器的权值向量,得到滤波器中权值对应的符号向量;通过符号向量与输入激活向量执行卷积运算,得到第一卷积结果,通过补偿因子与输入激活向量执行卷积运算,得到第二卷积结果,将该第一卷积结果和第二卷积结果相加,得到预测结果;该卷积神经网络执行卷积计算时根据该预测结果跳过0值相关的运算,得到卷积结果。本发明可预知输出激活的稀疏度,以指导原始的神经网络运算跳过0值相关的运算,从而减少原始网络的计算量,节省计算资源、降低功耗并提升性能。

Patent Agency Ranking