-
-
公开(公告)号:CN115526763A
公开(公告)日:2022-12-27
申请号:CN202210570047.6
申请日:2022-05-24
Applicant: 英特尔公司
Abstract: 本申请公开了使用稀疏度元数据降低脉动阵列功耗。一种处理装置可包括通用并行处理引擎,该通用并行处理引擎包括矩阵加速器,该矩阵加速器包括多级脉动阵列,其中,每个级包括与多个处理通道相关联的多个处理元件。多个处理元件配置成用于:接收独立于输入矩阵元素的输入稀疏度的输出稀疏度元数据,并且基于输出稀疏度元数据对输入矩阵元素执行处理操作。
-
公开(公告)号:CN112446815A
公开(公告)日:2021-03-05
申请号:CN202010591833.5
申请日:2020-06-24
Applicant: 英特尔公司
Abstract: 一种用于促进加速矩阵乘法运算的装置。该装置包括脉动阵列,该脉动阵列包括:矩阵乘法硬件,其用于对包括来自多个输入矩阵的数据的接收到的矩阵数据执行乘加运算;以及稀疏矩阵加速硬件,其用于检测矩阵数据中的零值,并对矩阵数据执行一个或多个优化以减少要由矩阵乘法硬件执行的乘加运算。
-
公开(公告)号:CN113610697A
公开(公告)日:2021-11-05
申请号:CN202011565546.3
申请日:2020-12-25
Applicant: 英特尔公司
Abstract: 本文中描述了一种加速器设备,其包括:主机接口;与主机接口耦合的结构互连;以及与结构互连耦合的一个或多个硬件片,该一个或多个硬件片包括稀疏矩阵乘法加速硬件,该稀疏矩阵乘法加速硬件包括带有反馈的输入脉动阵列。
-
-
公开(公告)号:CN111752606A
公开(公告)日:2020-10-09
申请号:CN202010112705.8
申请日:2020-02-24
Applicant: 英特尔公司
IPC: G06F9/30
Abstract: 本申请公开了用于对多个数据元素值执行约简操作的方法和装置。本文中详述的实施例关于对多个数据元素值的约简操作。在一个实施例中,处理器包括用于对指令解码的解码电路以及用于执行经解码的指令的执行电路。该指令指定包含多个数据元素值的第一输入寄存器、包含多个索引的第一索引寄存器、以及输出寄存器,其中,多个索引中的每个索引映射至第一输入寄存器的一个唯一的数据元素位置。执行包括:基于索引标识彼此相关联的数据元素值;基于标识对相关联的数据元素值执行一个或多个约简操作;以及将一个或多个约简操作的结果存储在输出寄存器中。
-
公开(公告)号:CN117120975A
公开(公告)日:2023-11-24
申请号:CN202280025691.3
申请日:2022-03-16
Applicant: 英特尔公司
IPC: G06F9/30
Abstract: 一种处理装置包括通用并行处理引擎,该通用并行处理引擎包括:多个处理元件的集合,包括单精度浮点单元、双精度浮点单元和整数单元;矩阵加速器,包括一个或多个脉动阵列;第一寄存器堆,与第一读取控制电路耦合,其中,第一读取控制电路与多个处理元件的集合和矩阵加速器耦合,以对来自多个处理元件的集合和矩阵加速器的对第一寄存器堆的读取请求进行仲裁;以及第二寄存器堆,与第二读取控制电路耦合,其中,第二读取控制电路与矩阵加速器耦合,以对来自矩阵加速器的对第二寄存器堆的读取请求进行仲裁并限制多个处理元件的集合对第二寄存器堆的访问。
-
公开(公告)号:CN115454501A
公开(公告)日:2022-12-09
申请号:CN202211137617.9
申请日:2020-02-24
Applicant: 英特尔公司
Abstract: 本申请公开了用于对多个数据元素值执行约简操作的方法和装置。本文中详述的实施例关于对多个数据元素值的约简操作。在一个实施例中,处理器包括用于对指令解码的解码电路以及用于执行经解码的指令的执行电路。该指令指定包含多个数据元素值的第一输入寄存器、包含多个索引的第一索引寄存器、以及输出寄存器,其中,多个索引中的每个索引映射至第一输入寄存器的一个唯一的数据元素位置。执行包括:基于索引标识彼此相关联的数据元素值;基于标识对相关联的数据元素值执行一个或多个约简操作;以及将一个或多个约简操作的结果存储在输出寄存器中。
-
-
-
-
-
-
-