图形处理器及图形处理器的操作方法

    公开(公告)号:CN118279123A

    公开(公告)日:2024-07-02

    申请号:CN202211710142.8

    申请日:2022-12-29

    IPC分类号: G06T1/20 G06F9/50

    摘要: 本申请公开一种图形处理器及图形处理器的操作方法。所述图形处理器包括多个处理分区、控制器及分派模块。多个处理分区用以并行处理多个内核。各处理分区包括多个处理单元,多个处理分区包括用以处理多个内核的第一内核的第一处理分区。控制器用以于第一处理分区的工作负载满足预定准则时,根据内核优先级信息产生控制信息。控制信息指出第二处理分区被选为借出处理分区,第二处理分区用以执行多个内核中优先级低于第一内核的第二内核。分派模块用以将第一内核分派给第一处理分区,并于第一处理分区的工作负载满足预定准则时,根据控制信息将第一内核的线程块分派给借出处理分区的处理单元。所述图形处理器能够减少高优先级的工作负载的延迟时间。

    GPU以及相关方法
    2.
    发明公开

    公开(公告)号:CN117114960A

    公开(公告)日:2023-11-24

    申请号:CN202210533717.7

    申请日:2022-05-16

    IPC分类号: G06T1/20 G06F9/50

    摘要: 本申请公开了一种GPU以及相关方法。GPU包括:多个流处理单元,各包括:多个流处理器,各包括寄存器,其中各流处理器具有预设线程束数目上限,且所述寄存器具有预设寄存器容量上限;以及全局调度器,包括:寄存器占用状况表,用来记录各流处理单元的各流处理器中的线程束数目及寄存器的空间占用状况;线程块调度模块,用来依据线程束分类表以及所述寄存器占用状况表来将所述线程块调度至所述多个流处理单元中的第一流处理单元;以及线程束调度模块,用来依据线程束分类表以及所述寄存器占用状况表来将所述多个线程束调度至所述第一流处理单元中的多个流处理器。

    GPU及相关方法
    3.
    发明公开
    GPU及相关方法 审中-实审

    公开(公告)号:CN117094874A

    公开(公告)日:2023-11-21

    申请号:CN202210522067.6

    申请日:2022-05-13

    发明人: 李浩然 孙飞 高源

    IPC分类号: G06T1/20 G06F9/50

    摘要: 本申请公开了一种GPU及相关方法。GPU包括多个流处理器组、可用硬件资源表、资源比较器、流排程器及全局调度器。每一流处理器组用以执行至少一线程块。可用硬件资源表记录多个流处理器组的可用硬件资源。资源比较器依据可用硬件资源表自多个内核流中的多个第一顺位内核代码选出所需硬件资源小于多个流处理器组的可用硬件资源的至少一可调度内核代码。流排程器自至少一可调度内核代码选择一选定内核代码。全局调度器将选定内核代码分配至多个流处理器组执行,及依据多个流处理器组的硬件资源使用状态更新可用硬件资源表。

    流处理器组、GPU及相关方法
    4.
    发明公开

    公开(公告)号:CN117094873A

    公开(公告)日:2023-11-21

    申请号:CN202210521992.7

    申请日:2022-05-13

    发明人: 李浩然 孙飞 高源

    IPC分类号: G06T1/20 G06F9/50

    摘要: 本申请公开了一种流处理器组、GPU及相关方法。流处理器组用以执行多个线程块,其中每一线程块包括多个线程束。流处理器组包括多个流处理器及本地调度器。每一流处理器用以执行一个或多个线程束。本地调度器包括线程束状态表、线程束资源检测单元及线程束发送单元。线程束状态表用以纪录各线程块的各线程束的分配状态及处理状态。线程束资源检测单元用以依据流处理器组的可用硬件资源及线程块所需的硬件资源,选取第一线程块的全部多个第一线程束及第二线程块的至少一第二线程束。线程束发送单元用以将第一线程束发送至闲置的多个第一流处理器,及将至少一第二线程束发送至闲置的至少一第二流处理器。

    数据流策略生成方法、装置、电子设备和存储介质

    公开(公告)号:CN116431205A

    公开(公告)日:2023-07-14

    申请号:CN202310277121.X

    申请日:2023-03-16

    IPC分类号: G06F8/75

    摘要: 本申请实施例提供了一种数据流策略生成方法、装置、电子设备和存储介质,该数据流策略生成方法包括:获取数据处理任务对应的计算图;根据计算图和执行成本生成阶段间数据流策略,其中,阶段间数据流策略包括将计算图包括的算子划分为多个流水线阶段的策略,流水线阶段包括至少一个算子;根据阶段间数据流策略,生成多个流水线阶段对应的多个阶段内数据流策略;根据多个阶段内数据流策略更新执行成本,以优化阶段间数据流策略,获得用于执行数据处理任务的目标阶段间数据流策略和相对应的多个目标阶段内数据流策略。本方案提供的数据流策略生成方案能够适用于不同的数据处理任务和硬件,具有较强的适用性。

    计算机实现的方法、硬件加速器以及存储介质

    公开(公告)号:CN115964164A

    公开(公告)日:2023-04-14

    申请号:CN202211576827.8

    申请日:2022-12-07

    IPC分类号: G06F9/50

    摘要: 本发明提供一种计算机实现的方法、硬件加速器以及存储介质。计算机实现的方法包括接收用于图形处理单元的计算图,所述计算图包括多个节点及多个边,所述多个节点表示所述图形处理单元所要执行的多个内核,所述多个边表示所述多个内核之间的执行依赖性;在所述计算图上执行一或多个波段划分,以确定所述多个内核的多个波段,每一波段包括一个或多个可在所述图形处理单元上同时执行的内核;获取包括每个内核资源使用情况的内核资源表;根据所述多个波段以及所述内核资源表将所述多个内核映射成多个流;在所述图形处理单元上执行所述多个流;映射在同一流中的内核由所述图形处理单元按顺序执行,而映射到不同流中的内核由所述图形处理单元同时执行。

    模型调度方法、系统、计算设备及存储介质

    公开(公告)号:CN118468926A

    公开(公告)日:2024-08-09

    申请号:CN202310119930.8

    申请日:2023-02-08

    摘要: 本申请公开了一种模型调度方法、系统、计算设备及存储介质。其中,该方法包括:获取神经网络模型的模型计算图和硬件处理阵列的硬件配置信息,其中,模型计算图用于表征神经网络模型中的不同算子之间的执行关系,硬件配置信息用于表征硬件处理阵列中的处理单元的属性信息;基于模型计算图和硬件配置信息,将算子和处理单元进行映射,得到目标映射关系;基于目标映射关系,将神经网络模型调度至硬件处理阵列。本申请解决了相关技术中大规模模型在硬件处理阵列上进行操作和调度的过程复杂,成本较高的技术问题。

    用于神经网络中稀疏矩阵乘法的加速器

    公开(公告)号:CN116108914A

    公开(公告)日:2023-05-12

    申请号:CN202310166761.3

    申请日:2023-02-15

    IPC分类号: G06N3/082 G06F17/16

    摘要: 本申请描述了用于张量积计算的加速器、计算机系统和方法,用于方便电路设计。该方法可以包括:将权重张量划分为区块矩阵;重排权重张量中的区块矩阵以获得重排后的权重张量;计算位掩码,该位掩码包括位矩阵,该位矩阵中的位与重排后的权重张量中的元素相对应;在重排后的权重张量中移除零元素,并且将重排后的权重张量中的非零元素打包;基于位掩码和激活张量生成紧凑的激活张量;以及,基于紧凑的权重张量和紧凑的激活张量执行张量乘法。其中,重排步骤有效地减少了激活与对应权重之间的扇出,减少扇出可以减少布线长度,从而减少信号传输的能耗。

    线程束执行方法以及相关GPU
    9.
    发明公开

    公开(公告)号:CN117237178A

    公开(公告)日:2023-12-15

    申请号:CN202210627993.X

    申请日:2022-06-06

    IPC分类号: G06T1/20 G06F9/50

    摘要: 本申请公开了一种用于GPU的流处理单元的多个流处理器的线程束执行方法以及相关GPU。其中多个流处理器共用便笺存储器,线程束执行方法包括:当预设线程束载入时间点已到,检查第一指标以得到便笺存储器中状态为空白的区域的大小,以判断是否执行载入线程束,其中所述第一指标用来指出所述便笺存储器中状态为数据使用中的区域的起始位置以及状态为所述空白的区域的结束位置;以及当预设运算时间点已到,检查第二指标及第三指标以得到所述便笺存储器中状态为数据非使用中的区域的大小,以判断是否执行运算线程束,其中所述第二指标用来指出所述便笺存储器中状态为所述数据非使用中的区域的结束位置以及状态为载入数据中的区域的起始位置。

    神经网络模型的训练方法、训练系统及可读介质

    公开(公告)号:CN116843002A

    公开(公告)日:2023-10-03

    申请号:CN202210289171.5

    申请日:2022-03-22

    摘要: 本公开提供了一种神经网络模型的训练方法、训练系统及可读介质。该训练方法,包括:使用转置不变的稀疏权重矩阵,在前向传递中通过稀疏矩阵‑矩阵乘法模块计算神经网络模型的激活;使用从权重转置模块接收到的稀疏权重矩阵的转置,在反向传递中通过稀疏矩阵‑矩阵乘法模块计算神经网络模型的激活梯度;使用在前向传递中从稀疏矩阵‑矩阵乘法模块接收的激活,在反向传递中通过采样稠密‑稠密矩阵乘法模块计算神经网络模型的权重梯度。本公开实施例使用转置不变的稀疏权重矩阵进行非零计算来训练神经网络模型,有利地消除了稀疏矩阵‑矩阵乘法模块和采样稠密‑稠密矩阵乘法模块的冗余计算,减少了神经网络模型的训练时间和存储器消耗。