一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897B

    公开(公告)日:2023-03-24

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    芯粒中神经网络推理的模块化调度方法、装置和计算设备

    公开(公告)号:CN115658274A

    公开(公告)日:2023-01-31

    申请号:CN202211425389.5

    申请日:2022-11-14

    Abstract: 本发明公开了一种芯粒中神经网络推理的模块化调度方法、装置和计算设备,包括:获取在芯粒中进行神经网络推理的调度策略搜索空间;获取并依据神经网络的计算图生成算子深度,依据计算图将算子划分为串行组;依据算子间的数据依赖关系、算子深度和串行组,划分计算图得到数据依赖模块和并行数据依赖模块;计算数据依赖模块的数据依赖复杂度,依据数据依赖复杂度、并行数据依赖模块以及芯粒资源总数计算算子的最大可用资源分配数量,作为调度策略迭代搜索的初始约束;依据调度策略搜索空间和初始约束迭代搜索使得计算开销、算子内和算子间数据传输开销、芯粒多级路由产生的拥塞开销之和最小的数据依赖模块调度策略。

    一种面向多芯粒芯片的深度学习推理模拟器

    公开(公告)号:CN116523045B

    公开(公告)日:2023-11-07

    申请号:CN202310235465.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。

    一种基于芯粒的数据处理的方法、装置、介质及设备

    公开(公告)号:CN115829017B

    公开(公告)日:2023-05-23

    申请号:CN202310156339.X

    申请日:2023-02-20

    Abstract: 本说明书公开了一种基于芯粒的数据处理的方法、装置、介质及设备。首先,获取芯粒阵列的阵列尺寸以及神经网络模型对应的有向无环图。其次,根据芯粒阵列的阵列尺寸,构建各类算子的划分策略集合以及芯粒分配策略集合。而后,根据神经网络模型中的各算子在有向无环图中的深度,确定各算子所要加入的调度搜索模块。然后,针对每个调度搜索模块,根据各类算子的划分策略集合以及芯粒分配策略集合,确定满足预设条件的各策略组合,并计算该调度搜索模块中对应的各策略组合所需的运算开销,确定目标策略组合。最后,根据各调度搜索模块对应的目标策略组合,执行神经网络模型的运算任务。本方法可以合理的分配芯粒资源,提高芯粒资源的资源利用率。

    一种芯粒算法调度方法、系统、电子设备及存储介质

    公开(公告)号:CN115860081A

    公开(公告)日:2023-03-28

    申请号:CN202310179898.2

    申请日:2023-03-01

    Abstract: 本发明涉及一种芯粒算法调度方法,包括:获取待调度的神经网络算法计算图;获取芯粒的拓扑结构,并基于拓扑结构生成芯粒资源列表;对神经网络算法计算图进行图优化;对计算图划分并行组;对计算图进行活跃性分析;生成计算图中的每个算子的策略和对应的开销;生成整数线性规划的优化变量;设定整数线性规划的求解目标;设定整数线性规划的约束条件;求解整数线性规划问题;将求解整数线性规划问题得到的解作为计算图在芯粒上的调度方法。与现有技术相比,本发明基于整数线性规划技术,将算法调度空间搜索问题转换成整数线性规划求解问题,通过设置多种求解约束缩小策略探索空间,能够在很短的时间内得到神经网络算法在芯粒上最优的调度方案。

    一种基于芯粒的数据处理的方法、装置、介质及设备

    公开(公告)号:CN115829017A

    公开(公告)日:2023-03-21

    申请号:CN202310156339.X

    申请日:2023-02-20

    Abstract: 本说明书公开了一种基于芯粒的数据处理的方法、装置、介质及设备。首先,获取芯粒阵列的阵列尺寸以及神经网络模型对应的有向无环图。其次,根据芯粒阵列的阵列尺寸,构建各类算子的划分策略集合以及芯粒分配策略集合。而后,根据神经网络模型中的各算子在有向无环图中的深度,确定各算子所要加入的调度搜索模块。然后,针对每个调度搜索模块,根据各类算子的划分策略集合以及芯粒分配策略集合,确定满足预设条件的各策略组合,并计算该调度搜索模块中对应的各策略组合所需的运算开销,确定目标策略组合。最后,根据各调度搜索模块对应的目标策略组合,执行神经网络模型的运算任务。本方法可以合理的分配芯粒资源,提高芯粒资源的资源利用率。

    面向芯粒故障感知的神经网络开销估计方法和系统

    公开(公告)号:CN117744726A

    公开(公告)日:2024-03-22

    申请号:CN202311698790.0

    申请日:2023-12-12

    Abstract: 本发明公开了一种面向芯粒故障感知的神经网络开销估计方法和系统,该方法包括以下步骤:获取芯粒故障后的不规则芯粒拓扑结构、不规则芯粒路由表、芯粒参数信息和算子参数信息;基于不规则芯粒拓扑结构和不规则芯粒路由表获取神经网络计算图在芯粒系统上的故障感知的调度策略,包括计算图、算子划分与资源数量分配策略和算子映射策略;对深度学习并行训练系统进行神经网络推理开销估计,包括获取计算开销、争用开销、算子内通信开销和算子间通信开销。本发明方法能够通过对故障芯粒的建模实现对神经网络在芯粒上的性能开销进行准确估计,为芯粒的设计和优化提供指导,为开发更高效的神经网络加速器提供有力支持。

    一种面向多芯粒芯片的深度学习推理模拟器

    公开(公告)号:CN116523045A

    公开(公告)日:2023-08-01

    申请号:CN202310235465.4

    申请日:2023-03-13

    Abstract: 本发明公开了一种面向多芯粒芯片的深度学习推理模拟器,包括:配置输入层,用于获取模拟所需的深度学习模型、多芯粒芯片架构和映射策略;模型解析层,用于根据映射策略对所述深度学习模型进行解析,得到模型解析表;路由生成层,用于根据模型解析表中每个算子的运行策略分析算子内路由和算子间路由并生成路由文件;推理模拟层,用于进行深度学习模型在多芯粒芯片架构所描述的多芯粒芯片上的推理模拟,将路由文件分层次并通过片上网络模拟器进行多进程并行模拟,得到各算子路由所需的周期数;结果计算层,用于将推理模拟层中并行模拟得到的算子路由周期数进行整理计算,得到深度学习模型在多芯粒芯片上推理模拟的周期数和平均设备利用率。

    一种面向芯粒的深度神经网络流水线并行调度方法及装置

    公开(公告)号:CN115421897A

    公开(公告)日:2022-12-02

    申请号:CN202211381782.9

    申请日:2022-11-07

    Abstract: 本发明公开了一种面向芯粒的深度神经网络流水线并行调度方法及装置,该方法包括:获取深度神经网络和芯粒拓扑结构;根据所述深度神经网络,构造深度神经网络计算图并对所述深度神经网络计算图进行缩减;根据缩减后的深度神经网络计算图划分流水线组,得到流水线组图;根据所述流水线组图和芯粒拓扑结构,划分流水线并行区域;根据划分后的流水线并行区域和所述芯粒拓扑结构确定深度神经网络流水线并行调度策略;按照所述深度神经网络流水线并行调度策略,将所述深度神经网络部署到芯粒上,执行深度神经网络流水线并行推理。

    面向芯粒的深度大模型容错部署优化方法和系统

    公开(公告)号:CN117632148A

    公开(公告)日:2024-03-01

    申请号:CN202311611108.X

    申请日:2023-11-29

    Abstract: 本发明公开了一种面向芯粒的深度大模型容错部署优化方法和系统,该方法包括以下步骤:获取深度大模型的计算图、算子的划分策略及故障芯粒不规则拓扑结构;通过优化算子的划分策略和硬件资源数量分配策略,最小化计算图的计算开销、通信开销和随机映射的链路争用开销,得到算子的最佳划分策略和最佳资源分配数量;通过优化算子基于芯粒不规则拓扑结构的硬件映射策略,最小化芯粒故障网络的链路争用开销,得到算子的最佳映射方案;将上述开销视为总执行开销,通过迭代优化最小化总执行开销,最终获得最佳调度方案。本发明方法能够得到推理性能更强大且执行开销更小的调度方案,推动深度学习大模型在芯粒上的容错部署和优化技术的发展和应用。

Patent Agency Ranking