使用稀疏度元数据降低脉动阵列功耗

    公开(公告)号:CN115526763A

    公开(公告)日:2022-12-27

    申请号:CN202210570047.6

    申请日:2022-05-24

    Abstract: 本申请公开了使用稀疏度元数据降低脉动阵列功耗。一种处理装置可包括通用并行处理引擎,该通用并行处理引擎包括矩阵加速器,该矩阵加速器包括多级脉动阵列,其中,每个级包括与多个处理通道相关联的多个处理元件。多个处理元件配置成用于:接收独立于输入矩阵元素的输入稀疏度的输出稀疏度元数据,并且基于输出稀疏度元数据对输入矩阵元素执行处理操作。

    使用脉动阵列在并行计算机器中计算高效的跨通道运算

    公开(公告)号:CN113590198A

    公开(公告)日:2021-11-02

    申请号:CN202011558163.3

    申请日:2020-12-25

    Abstract: 公开了一种用于促进使用脉动阵列在并行计算机器中计算高效的跨通道运算的装置。该装置包括多个寄存器和可通信地耦合到多个寄存器的一个或多个处理元件。一个或多个处理元件包括脉动阵列电路,用于对从多个寄存器中的单个源寄存器接收的源数据执行跨通道运算,该脉动阵列电路被修改以从单个源寄存器接收输入,并且将单个源寄存器的元素路由到脉动阵列电路中的多个通道。

    用于对多个数据元素值执行约简操作的方法和装置

    公开(公告)号:CN111752606A

    公开(公告)日:2020-10-09

    申请号:CN202010112705.8

    申请日:2020-02-24

    Abstract: 本申请公开了用于对多个数据元素值执行约简操作的方法和装置。本文中详述的实施例关于对多个数据元素值的约简操作。在一个实施例中,处理器包括用于对指令解码的解码电路以及用于执行经解码的指令的执行电路。该指令指定包含多个数据元素值的第一输入寄存器、包含多个索引的第一索引寄存器、以及输出寄存器,其中,多个索引中的每个索引映射至第一输入寄存器的一个唯一的数据元素位置。执行包括:基于索引标识彼此相关联的数据元素值;基于标识对相关联的数据元素值执行一个或多个约简操作;以及将一个或多个约简操作的结果存储在输出寄存器中。

    用于脉动阵列的寄存器堆
    7.
    发明公开

    公开(公告)号:CN117120975A

    公开(公告)日:2023-11-24

    申请号:CN202280025691.3

    申请日:2022-03-16

    Abstract: 一种处理装置包括通用并行处理引擎,该通用并行处理引擎包括:多个处理元件的集合,包括单精度浮点单元、双精度浮点单元和整数单元;矩阵加速器,包括一个或多个脉动阵列;第一寄存器堆,与第一读取控制电路耦合,其中,第一读取控制电路与多个处理元件的集合和矩阵加速器耦合,以对来自多个处理元件的集合和矩阵加速器的对第一寄存器堆的读取请求进行仲裁;以及第二寄存器堆,与第二读取控制电路耦合,其中,第二读取控制电路与矩阵加速器耦合,以对来自矩阵加速器的对第二寄存器堆的读取请求进行仲裁并限制多个处理元件的集合对第二寄存器堆的访问。

    用于对多个数据元素值执行约简操作的方法和装置

    公开(公告)号:CN115454501A

    公开(公告)日:2022-12-09

    申请号:CN202211137617.9

    申请日:2020-02-24

    Abstract: 本申请公开了用于对多个数据元素值执行约简操作的方法和装置。本文中详述的实施例关于对多个数据元素值的约简操作。在一个实施例中,处理器包括用于对指令解码的解码电路以及用于执行经解码的指令的执行电路。该指令指定包含多个数据元素值的第一输入寄存器、包含多个索引的第一索引寄存器、以及输出寄存器,其中,多个索引中的每个索引映射至第一输入寄存器的一个唯一的数据元素位置。执行包括:基于索引标识彼此相关联的数据元素值;基于标识对相关联的数据元素值执行一个或多个约简操作;以及将一个或多个约简操作的结果存储在输出寄存器中。

Patent Agency Ranking