一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897B

    公开(公告)日:2023-03-24

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    芯粒中神经网络推理的模块化调度方法、装置和计算设备

    公开(公告)号:CN115658274A

    公开(公告)日:2023-01-31

    申请号:CN202211425389.5

    申请日:2022-11-14

    Abstract: 本发明公开了一种芯粒中神经网络推理的模块化调度方法、装置和计算设备,包括:获取在芯粒中进行神经网络推理的调度策略搜索空间;获取并依据神经网络的计算图生成算子深度,依据计算图将算子划分为串行组;依据算子间的数据依赖关系、算子深度和串行组,划分计算图得到数据依赖模块和并行数据依赖模块;计算数据依赖模块的数据依赖复杂度,依据数据依赖复杂度、并行数据依赖模块以及芯粒资源总数计算算子的最大可用资源分配数量,作为调度策略迭代搜索的初始约束;依据调度策略搜索空间和初始约束迭代搜索使得计算开销、算子内和算子间数据传输开销、芯粒多级路由产生的拥塞开销之和最小的数据依赖模块调度策略。

    一种面向多芯粒芯片的深度学习推理模拟器

    公开(公告)号:CN116523045A

    公开(公告)日:2023-08-01

    申请号:CN202310235465.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。

    一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897A

    公开(公告)日:2022-12-02

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    一种面向多芯粒芯片的深度学习推理模拟器

    公开(公告)号:CN116523045B

    公开(公告)日:2023-11-07

    申请号:CN202310235465.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。

    一种基于芯粒的数据处理的方法、装置、介质及设备

    公开(公告)号:CN115829017B

    公开(公告)日:2023-05-23

    申请号:CN202310156339.X

    申请日:2023-02-20

    Abstract: 本说明书公开了一种基于芯粒的数据处理的方法、装置、介质及设备。首先,获取芯粒阵列的阵列尺寸以及神经网络模型对应的有向无环图。其次,根据芯粒阵列的阵列尺寸,构建各类算子的划分策略集合以及芯粒分配策略集合。而后,根据神经网络模型中的各算子在有向无环图中的深度,确定各算子所要加入的调度搜索模块。然后,针对每个调度搜索模块,根据各类算子的划分策略集合以及芯粒分配策略集合,确定满足预设条件的各策略组合,并计算该调度搜索模块中对应的各策略组合所需的运算开销,确定目标策略组合。最后,根据各调度搜索模块对应的目标策略组合,执行神经网络模型的运算任务。本方法可以合理的分配芯粒资源,提高芯粒资源的资源利用率。

    一种芯粒算法调度方法、系统、电子设备及存储介质

    公开(公告)号:CN115860081A

    公开(公告)日:2023-03-28

    申请号:CN202310179898.2

    申请日:2023-03-01

    Abstract: 本发明涉及一种芯粒算法调度方法,包括:获取待调度的神经网络算法计算图;获取芯粒的拓扑结构,并基于拓扑结构生成芯粒资源列表;对神经网络算法计算图进行图优化;对计算图划分并行组;对计算图进行活跃性分析;生成计算图中的每个算子的策略和对应的开销;生成整数线性规划的优化变量;设定整数线性规划的求解目标;设定整数线性规划的约束条件;求解整数线性规划问题;将求解整数线性规划问题得到的解作为计算图在芯粒上的调度方法。与现有技术相比,本发明基于整数线性规划技术,将算法调度空间搜索问题转换成整数线性规划求解问题,通过设置多种求解约束缩小策略探索空间,能够在很短的时间内得到神经网络算法在芯粒上最优的调度方案。

    一种基于芯粒的数据处理的方法、装置、介质及设备

    公开(公告)号:CN115829017A

    公开(公告)日:2023-03-21

    申请号:CN202310156339.X

    申请日:2023-02-20

    Abstract: 本说明书公开了一种基于芯粒的数据处理的方法、装置、介质及设备。首先,获取芯粒阵列的阵列尺寸以及神经网络模型对应的有向无环图。其次,根据芯粒阵列的阵列尺寸,构建各类算子的划分策略集合以及芯粒分配策略集合。而后,根据神经网络模型中的各算子在有向无环图中的深度,确定各算子所要加入的调度搜索模块。然后,针对每个调度搜索模块,根据各类算子的划分策略集合以及芯粒分配策略集合,确定满足预设条件的各策略组合,并计算该调度搜索模块中对应的各策略组合所需的运算开销,确定目标策略组合。最后,根据各调度搜索模块对应的目标策略组合,执行神经网络模型的运算任务。本方法可以合理的分配芯粒资源,提高芯粒资源的资源利用率。

    一种面向多芯粒组合芯片的片上网络仿真系统

    公开(公告)号:CN115460128B

    公开(公告)日:2023-07-07

    申请号:CN202211399069.7

    申请日:2022-11-09

    Abstract: 本发明公开了一种面向多芯粒组合芯片的片上网络仿真系统,包括:片上网络生成单元,用于根据多芯粒组合芯片特征生成片上网络的抽象模型;数据路由仿真单元,用于对数据包在片上网络的运行进行仿真并输出数据在片上网络的仿真时间、路由所需的总周期数以及每个数据包的平均延迟。本申请通过在每个芯粒加上片间路由器并与芯粒内部的片内路由器相连,形成异构双层拓扑网络,使之可以仿真不同芯粒间的处理单元交互。对多芯粒芯片设计提供了性能评估,有利于芯片设计初期的探索;可灵活配置多芯粒芯片的各项参数,对不同规模的多芯粒芯片进行仿真。

    芯粒中神经网络推理的模块化调度方法、装置和计算设备

    公开(公告)号:CN115658274B

    公开(公告)日:2023-06-06

    申请号:CN202211425389.5

    申请日:2022-11-14

    Abstract: 本发明公开了一种芯粒中神经网络推理的模块化调度方法、装置和计算设备,包括:获取在芯粒中进行神经网络推理的调度策略搜索空间;获取并依据神经网络的计算图生成算子深度,依据计算图将算子划分为串行组;依据算子间的数据依赖关系、算子深度和串行组,划分计算图得到数据依赖模块和并行数据依赖模块;计算数据依赖模块的数据依赖复杂度,依据数据依赖复杂度、并行数据依赖模块以及芯粒资源总数计算算子的最大可用资源分配数量,作为调度策略迭代搜索的初始约束;依据调度策略搜索空间和初始约束迭代搜索使得计算开销、算子内和算子间数据传输开销、芯粒多级路由产生的拥塞开销之和最小的数据依赖模块调度策略。

Patent Agency Ranking