用于8位浮点矩阵点积指令的装置、方法和系统

    公开(公告)号:CN118605946A

    公开(公告)日:2024-09-06

    申请号:CN202410736985.8

    申请日:2021-12-08

    申请人: 英特尔公司

    摘要: 本申请公开了用于8位浮点矩阵点积指令的装置、方法和系统。描述了涉及8位浮点矩阵点积指令的系统、方法和装置。处理器实施例包括:取出电路,用于取出指令,该指令具有用于指定操作码和具有单精度元素的目的地矩阵的位置、第一源矩阵的位置和第二源矩阵的位置的字段,源矩阵具有各自包括8位浮点值的四元组的元素,该操作码用于指示执行电路用于引起:对于第一源矩阵的每个元素和第二源矩阵的对应元素,将8位浮点值转换为单精度值,将不同对的经转换的单精度值相乘以生成多个结果,并且将结果与目的地矩阵的对应元素的先前内容累加;解码电路,用于对所取出的指令解码;以及执行电路,用于如操作码所指定地对经解码的指令作出响应。

    用于执行将矩阵变换为行交错格式的指令的系统和方法

    公开(公告)号:CN117724766A

    公开(公告)日:2024-03-19

    申请号:CN202311748853.9

    申请日:2019-08-27

    申请人: 英特尔公司

    IPC分类号: G06F9/38

    摘要: 本申请公开了用于执行将矩阵变换为行交错格式的指令的系统和方法。所公开实施例涉及用于执行用于将矩阵变换为行交错格式的指令的系统和方法。在一个示例中,处理器包括:取出和解码电路,用于取出并解码指令,该指令具有用于指定操作码以及源和目的地矩阵的位置的字段,其中操作码指示处理器用于将所指定的源矩阵变换为具有行交错格式的所指定的目的地矩阵;以及执行电路,用于通过经由以下操作将所指定的源矩阵变换为所指定的RowInt格式化的目的地矩阵来对经解码的指令作出响应:以行为主或列为主的顺序使所指定的源矩阵的每个J元素子列的J个元素交错为所指定的目的地矩阵的K宽度子矩阵,K宽度子矩阵具有K列和足够的行以保存J个元素。

    用于执行向量位混洗的方法和装置

    公开(公告)号:CN107003852B

    公开(公告)日:2021-03-26

    申请号:CN201580064635.0

    申请日:2015-11-25

    申请人: 英特尔公司

    IPC分类号: G06F9/30 G06F15/80

    摘要: 用于执行向量位混洗的装置和方法。例如,处理器的一个实施例包括:第一向量寄存器,用于存储多个源数据元素;第二向量寄存器,用于存储多个控制元素,控制元素中的每一个包括多个位字段,每个位字段用于与目的地掩码寄存器中的对应位位置相关联、并且用于标识来自源数据元素中的每一个的会被复制到特定位位置中的每一个的位;以及向量位混洗逻辑,用于从第二向量寄存器读取每个位字段以标识来自源数据元素中的每一个的位,并且响应地将来自源数据元素中的每一个的位复制到目的地掩码寄存器中的对应位位置中的每一个。

    经改进的提取指令的装置和方法

    公开(公告)号:CN104115114B

    公开(公告)日:2018-06-12

    申请号:CN201180076304.0

    申请日:2011-12-23

    申请人: 英特尔公司

    IPC分类号: G06F9/30 G06F9/305 G06F1/00

    摘要: 描述了一种装置,该装置包含指令执行逻辑电路,该指令执行逻辑电路用于执行第一、第二、第三和第四指令。第一指令和第二指令二者从相应的第一和第二输入向量的多个第一不重叠部分中的一个部分中选择第一组输入向量元素。第一组具有第一位宽。多个第一不重叠部分中的每个部分具有与第一组相同的位宽。第三指令和第四指令两者从相应的第三和第四输入向量的多个第二不重叠部分中的一个部分中选择第二组输入向量元素。第二组具有比所述第一位宽大的第二位宽。多个第二不重叠部分中的每个部分具有与第二组相同的位宽。该装置包括掩码层电路,该掩码层电路用于在第一粒度下对第一和第三指令的第一和第二组进行掩码操作,其中利用该操作产生的相应结果是第一和第三指令的相应结果。该掩码层电路还用于在第二粒度下对第二和第四指令的第一和第二组进行掩码操作,其中利用该操作产生的相应结果是第二和第四指令的相应结果。