-
公开(公告)号:CN113094096A
公开(公告)日:2021-07-09
申请号:CN202011001145.5
申请日:2020-09-22
Applicant: 英特尔公司
Inventor: S·帕尔 , S·阿万察 , I·巴蒂 , W-Y·陈 , D·达斯 , A·加吉 , C·S·古拉姆 , J·顾 , 路奎元 , S·马余兰 , J·E·帕拉 , S·斯里尼瓦桑 , V·乔治
Abstract: 本申请公开了用于利用零跳过的向量乘加的指令和逻辑。本文中描述的实施例提供用于实现利用对于稀疏输入的自动零跳过的向量乘加指令的指令和相关联的逻辑。一个实施例提供一种通用图形处理器,包括逻辑,用于执行操作,这些操作包括:取出硬件宏指令,该硬件宏指令具有断言掩码、重复计数和一组初始操作数,其中初始操作数包括目的地操作数和多个源操作数。硬件宏指令配置为对与一组矩阵相关联的输入数据执行一个或多个乘法/加法操作。
-
公开(公告)号:CN110187917A
公开(公告)日:2019-08-30
申请号:CN201910063808.7
申请日:2019-01-23
Applicant: 英特尔公司
Inventor: S·马余兰 , S·帕尔 , A·加吉 , D·M·斯塔基 , 路奎元 , J·E·帕拉 , S·B·沙阿 , W-Y·陈 , V·维姆拉帕里 , N·克里希纳 , B·A·施瓦茨 , C·S·古拉姆 , W·潘 , A·J·斯瓦尼
Abstract: 公开了SIMD处理单元的融合。涉及用于融合SIMD处理单元的技术的方法和装置。在示例中,一种装置包括至少部分地包括硬件逻辑的逻辑,用于:接收指令集,以用于在至少两个图形处理执行单元上执行;判定该指令集是否要求依赖于数据的寻址;以及至少部分地基于对指令集是否要求依赖于数据的寻址的判定,在用于至少两个图形处理单元的同步化的执行环境与用于至少两个图形处理单元的非同步化的执行环境之间进行选择。还公开并要求保护其他实施例。
-
公开(公告)号:CN113032159A
公开(公告)日:2021-06-25
申请号:CN202010935078.8
申请日:2020-09-08
Applicant: 英特尔公司
Abstract: 本申请公开了编译器辅助的寄存器堆写入减少。本文中描述的示例涉及软件和硬件优化,其管理其中对小于寄存器的整体的寄存器的写入操作的场景。编译器检测对同一寄存器进行部分写入的指令,将此类指令编组,并且将提示提供给部分写入的硬件。执行单元将经编组的指令的输出数据进行组合并且随着单次写入更新目的地寄存器而不是多次分开的部分写入。
-
公开(公告)号:CN110389783A
公开(公告)日:2019-10-29
申请号:CN201910207919.0
申请日:2019-03-19
Applicant: 英特尔公司
Inventor: S·马余兰 , 路奎元 , S·帕尔 , A·加吉 , C·S·古拉姆 , J·E·帕拉 , J·顾 , K·特里芬诺维奇 , H·B·廖 , M·B·麦克弗森 , S·B·沙阿 , S·马瓦哈 , S·琼金斯 , T·R·鲍尔 , V·乔治 , W·陈
Abstract: 本申请公开了用于具有累加的收缩点积的指令和逻辑。本文所描述的实施例提供了一种指令和相关联逻辑,以使GPGPU程序代码能够访问专用硬件逻辑从而加速点积运算。一个实施例提供了一种图形处理单元,所述图形处理单元包括用于取出指令以便执行的取出单元以及用于将所述指令解码成经解码指令的解码单元。所述经解码指令是用于使所述图形处理单元执行并行点积运算的矩阵指令。所述GPGPU还包括用于使用多个收缩层来跨一个或多个SIMD通道执行所述经解码指令的收缩点积单元,其中,为了执行所述经解码指令,在第一收缩层处计算的点积将被输出到第二收缩层,其中,每个收缩层包括一组或多组互连的乘法器与加法器,每组乘法器与加法器用于生成点积。
-
公开(公告)号:CN115205098A
公开(公告)日:2022-10-18
申请号:CN202210163952.X
申请日:2022-02-22
Applicant: 英特尔公司
Abstract: 本申请公开了高性能常量高速缓存和常量访问机制。一种图形处理装置,包括图形处理器和常量高速缓存。图形处理器具有多个执行实例,这些执行实例将生成对来自常量高速缓存的常量数据的请求。常量高速缓存存储具有多个常量类型的常量。常量高速缓存具有单个级别的层级结构来存储常量数据。常量高速缓存具有基于多个执行实例的区块结构,其中执行实例生成利用对于不同类型的常量数据相同的统一消息收发的、对常量数据的请求。
-
-
-
-