-
公开(公告)号:CN115205098A
公开(公告)日:2022-10-18
申请号:CN202210163952.X
申请日:2022-02-22
Applicant: 英特尔公司
Abstract: 本申请公开了高性能常量高速缓存和常量访问机制。一种图形处理装置,包括图形处理器和常量高速缓存。图形处理器具有多个执行实例,这些执行实例将生成对来自常量高速缓存的常量数据的请求。常量高速缓存存储具有多个常量类型的常量。常量高速缓存具有单个级别的层级结构来存储常量数据。常量高速缓存具有基于多个执行实例的区块结构,其中执行实例生成利用对于不同类型的常量数据相同的统一消息收发的、对常量数据的请求。
-
公开(公告)号:CN119739427A
公开(公告)日:2025-04-01
申请号:CN202411197692.3
申请日:2024-08-29
Applicant: 英特尔公司
Abstract: 公开了一种用来促进图形体系结构中支持8比特浮点格式以用于并行计算和随机舍入操作的设备。所述设备包含处理器,其包括:解码器,其用来将为执行而取得的指令解码成解码的指令,其中解码的指令是要对8比特浮点操作对象进行操作以执行并行点积操作的矩阵指令;调度器,其用来调度解码的指令,并且根据由解码的指令指示的8比特浮点数据格式来提供对于8比特浮点操作对象的输入数据;以及电路模块,其用来执行解码的指令,以使用8比特宽的点积层执行32路点积,每个8比特宽的点积层包括互连的乘法器、移位器以及加法器的一个或多个集合,其中,乘法器、移位器以及加法器的每个集合要生成8比特浮点操作对象的点积。
-
公开(公告)号:CN115525420A
公开(公告)日:2022-12-27
申请号:CN202210570979.0
申请日:2022-05-24
Applicant: 英特尔公司
Abstract: 描述了为线程提供多个寄存器分配尺寸。系统的示例包括:一个或多个处理器,包括图形处理器,该图形处理器至少包括第一本地线程分派器(TDL)和多个处理资源,每个处理资源包括多个寄存器;以及存储器,用于存储数据以供处理,其中,一个或多个处理器用于:确定用于第一线程的寄存器尺寸;标识具有用于第一线程的足够的寄存器空间的一个或多个处理资源;选择一个或多个处理资源中具有足够的寄存器空间来指派第一线程的处理资源;为第一线程选择所选择的处理资源的可用的线程槽;以及为第一线程分派所选择的处理资源的寄存器。
-
公开(公告)号:CN115511692A
公开(公告)日:2022-12-23
申请号:CN202210638454.6
申请日:2022-06-07
Applicant: 英特尔公司
IPC: G06T1/20
Abstract: 实施例涉及用于重用FMA执行单元硬件逻辑以在GPU内为执行获得指数指令、获得尾数指令和/或缩放指令提供原生支持的系统和方法。这些新指令可用于通过检测和处置FMA执行单元的预处理级内的各种特殊情形输入来实现用于数学函数和分析函数(例如,超越函数)的无分支仿真算法,这允许对于此类特殊情形,FMA执行单元的主数据流被绕过。由于特殊情形由FMA执行单元处置,因此对各种函数(包括但不限于对数运算、指数运算和除法运算)进行仿真的库函数可以利用少得多的行数的机器级代码来实现,从而为HPC应用提供改善的性能。
-
公开(公告)号:CN115129370A
公开(公告)日:2022-09-30
申请号:CN202210175439.2
申请日:2022-02-24
Applicant: 英特尔公司
Abstract: 公开了一种用于促进在计算架构中支持8位浮点格式操作数的装置。该装置包括:处理器,该处理器包括:解码器,用于将取出以供执行的指令解码为经解码的指令,其中,经解码的指令是矩阵指令,矩阵指令对8位浮点操作数进行操作以使处理器执行并行点积操作;控制器,用于调度经解码的指令并且根据由经解码的指令指示的8位浮点数据格式来提供用于8位浮点操作数的输入数据;以及脉动点积电路,用于使用脉动层执行经解码的指令,每个脉动层包括一组或多组互连的乘法器、移位器和加法器,每组乘法器、移位器和加法器用于生成8位浮点操作数的点积。
-
公开(公告)号:CN119379525A
公开(公告)日:2025-01-28
申请号:CN202311694501.X
申请日:2023-12-11
Applicant: 英特尔公司
Inventor: S·帕尔 , 陈佳升 , K·赫德 , J·E·帕拉奥索里奥 , C·斯潘塞 , 路奎元 , P·K·戈尔康达 , 付方文 , W·熊 , H·李 , J·瓦莱里奥 , M·斯瓦米纳坦 , N·墨菲 , 穆帅 , C·吉布森 , 程步奇
IPC: G06T1/20 , G06T1/60 , G06F15/78 , G06N3/044 , G06N3/0464 , G06N3/0499 , G06N3/08 , G06N20/00
Abstract: 本公开涉及经由整数单元的浮点转换。本文描述的是图形处理器,其包括存储器接口和与存储器接口耦合的图形处理集群。图形处理集群包括多通道并行浮点单元和多通道并行整数单元。多通道并行整数单元包括:整数管线,其包括被配置用于对多个输入数据元素执行整数计算操作的多个并行整数逻辑单元;以及格式转换管线,其包括被多个并行格式转换单元,多个并行格式转换单元被配置用于将多个输入数据元素从多个数据类型格式中的第一数据类型格式转换成多个数据类型格式中的第二数据类型格式,多个数据类型格式包括整数格式和浮点格式。
-
公开(公告)号:CN114119338A
公开(公告)日:2022-03-01
申请号:CN202110843175.9
申请日:2021-07-26
Applicant: 英特尔公司
Abstract: 本申请公开了tanh和sigmoid函数执行。本文中描述的示例关于用于请求执行tanh指令和sigmoid指令的指令。例如,编译器可生成原生tanh指令以执行tanh。在一些示例中,tanh函数可被编译为三条指令,包括:用于取决于输入的值而执行tanh(输入)或tanh(输入)/输入以生成中间输出的指令;用于基于输入而引起执行比例因子的生成的指令;以及用于引起执行对中间结果与比例因子的乘法操作的指令。例如,可编译sigmoid函数以使数学流水线执行范围校验并基于范围来执行操作。
-
公开(公告)号:CN119579390A
公开(公告)日:2025-03-07
申请号:CN202411076182.0
申请日:2024-08-07
Applicant: 英特尔公司
IPC: G06T1/20
Abstract: 本公开的发明名称是“在图形环境中的数学管线阶段期间对整数管线去阻塞”。公开了一种用于促进在图形环境中的数学管线阶段期间对整数管线去阻塞的设备。所述设备包含执行资源,其包括:线程仲裁器;多个执行管线硬件电路模块,其包括用于共享线程仲裁器的资源的数学执行管线和整数执行管线;仲裁硬件电路模块,其用于确定数学执行管线是否可用于加载数学指令的数学操作对象数据;以及数学指令暂存缓冲器,其用于响应于数学执行管线不可用而存储数学操作对象数据;其中,整数执行管线要接收整数指令的整数操作对象数据,同时绕过数学指令暂存缓冲器中的数学操作对象数据;以及其中,数学执行管线要响应于数学执行管线变得可用而从数学指令暂存缓冲器接收数学操作对象数据。
-
公开(公告)号:CN119356735A
公开(公告)日:2025-01-24
申请号:CN202411392808.9
申请日:2022-02-24
Applicant: 英特尔公司
Abstract: 公开了一种用于促进在计算架构中支持8位浮点格式操作数的装置。该装置包括:处理器,该处理器包括:解码器,用于将取出以供执行的指令解码为经解码的指令,其中,经解码的指令是矩阵指令,矩阵指令对8位浮点操作数进行操作以使处理器执行并行点积操作;控制器,用于调度经解码的指令并且根据由经解码的指令指示的8位浮点数据格式来提供用于8位浮点操作数的输入数据;以及脉动点积电路,用于使用脉动层执行经解码的指令,每个脉动层包括一组或多组互连的乘法器、移位器和加法器,每组乘法器、移位器和加法器用于生成8位浮点操作数的点积。
-
-
-
-
-
-
-
-