-
-
公开(公告)号:CN108268283A
公开(公告)日:2018-07-10
申请号:CN201810018954.3
申请日:2018-01-02
申请人: 英特尔公司
IPC分类号: G06F9/38
CPC分类号: G06F9/5083 , G06F9/4881 , G06F15/8092 , G06F2209/509 , G06N7/005 , G06N20/00 , G06T1/20 , G06F9/384 , G06F9/3869
摘要: 描述了涉及用于利用约简操作来支持数据并行循环的计算引擎架构的技术。在一些实施例中,硬件处理器包括存储器单元和多个处理元件(PE)。PE中的每一个PE都经由一个或多个邻至邻链路直接与一个或多个相邻PE耦合,使得每一个PE都能够:从相邻PE接收值;将值提供给相邻PE;或者既从一个相邻PE接收值,又将值提供给另一相邻PE。硬件处理器还包括控制引擎,该控制引擎与多个PE耦合,用于使多个PE共同执行任务,以便通过每一个PE执行该任务的同一子任务的一个或多个迭代来生成一个或多个输出值。
-
公开(公告)号:CN108268423B
公开(公告)日:2023-10-13
申请号:CN201810001386.6
申请日:2018-01-02
申请人: 英特尔公司
摘要: 公开了用于实现用于具有写到读依赖关系的稀疏线性代数运算的增强的并行性的技术。硬件处理器包括多个处理元件、存储器和仲裁器,该存储器高度区块化为多个区块。所述仲裁器用于从在寻求执行涉及所述存储器的操作的多个处理元件处执行的线程接收请求,并且维护对应于多个区块的多个锁缓冲器。锁缓冲器中的每一个能够跟踪对应区块中的将被视为被锁定的多达多个存储器地址,存储器地址被锁定体现在存储在那些存储器处的值不能够由线程中先前未使所述存储器地址被锁定的那些线程更新,直到那些存储器地址已被移除而不由多个锁缓冲器跟踪为止。
-
公开(公告)号:CN108268424A
公开(公告)日:2018-07-10
申请号:CN201810001937.9
申请日:2018-01-02
申请人: 英特尔公司
CPC分类号: G06F17/16 , G06F9/3001 , G06F9/30036 , H03M7/30 , G06F9/5044
摘要: 描述了用于处理具有偏斜非零分布的稀疏矩阵数据的异构硬件加速器架构。加速器包括用于通过高带宽接口从第一存储器访问数据的稀疏片以及用于通过低等待时间接口从第二存储器随机地访问数据的超/极稀疏片。该加速器确定要执行涉及矩阵的一个或多个计算任务,将矩阵分区为第一多个块和第二多个块,该第一多个块包括该矩阵的一个或多个稀疏区段,该第二多个块包括该矩阵中为超稀疏或极稀疏的区段。该加速器使(多个)稀疏片使用第一多个块来执行针对(多个)计算任务的一个或多个矩阵操作,并且进一步使(多个)超/极稀疏片使用第二多个块来执行针对(多个)计算任务的一个或多个矩阵操作。
-
公开(公告)号:CN110968345A
公开(公告)日:2020-04-07
申请号:CN201910817011.1
申请日:2019-08-30
申请人: 英特尔公司
摘要: 本申请公开了用于数据并行单程序多数据(SPMD)执行的架构和方法。一种用于数据并行单程序多数据(SPMD)执行的装置和方法。例如,处理器的一个实施例包括:指令取出电路,用于取出一个或多个主线程的指令;解码器,用于对这些指令进行解码以生成微操作;数据并行集群(DPC),用于执行包括这些微操作的子集的微线程,该DPC进一步包括:多个执行通道,用于执行对微线程的并行执行;指令解码队列(IDQ),用于在执行之前存储微操作;以及调度器,用于基于包括指令指针(IP)值的相关联的变量来评估微线程,该调度器用于基于该评估而将微线程成组为片段以供在执行通道上进行并行执行。
-
公开(公告)号:CN109993683A
公开(公告)日:2019-07-09
申请号:CN201811528400.4
申请日:2018-12-13
申请人: 英特尔公司
摘要: 本公开涉及任意神经网络的机器学习稀疏计算机制、用于训练机制的算术计算微架构以及稀疏性。公开了一种用于促进任意图形数据的稀疏矩阵的处理的装置。该装置包括具有数据管理单元(DMU)的图形处理单元,该DMU包括用于调度矩阵操作的调度器、用于跟踪有效输入操作数的有效逻辑、以及用于跟踪要由调度器跳过的不重要输入操作数的跳过逻辑。处理电路被耦合到DMU。处理电路包括多个处理元件,处理元件包括用于读取操作数的逻辑和用于使任意图形数据的两个或更多个操作数相乘的乘法单元。
-
公开(公告)号:CN108268423A
公开(公告)日:2018-07-10
申请号:CN201810001386.6
申请日:2018-01-02
申请人: 英特尔公司
摘要: 公开了用于实现用于具有写到读依赖关系的稀疏线性代数运算的增强的并行性的技术。硬件处理器包括多个处理元件、存储器和仲裁器,该存储器高度区块化为多个区块。所述仲裁器用于从在寻求执行涉及所述存储器的操作的多个处理元件处执行的线程接收请求,并且维护对应于多个区块的多个锁缓冲器。锁缓冲器中的每一个能够跟踪对应区块中的将被视为被锁定的多达多个存储器地址,存储器地址被锁定体现在存储在那些存储器处的值不能够由线程中先前未使所述存储器地址被锁定的那些线程更新,直到那些存储器地址已被移除而不由多个锁缓冲器跟踪为止。
-
-
-
-
-
-