-
公开(公告)号:CN117744726A
公开(公告)日:2024-03-22
申请号:CN202311698790.0
申请日:2023-12-12
Applicant: 之江实验室
IPC: G06N3/063 , G06F9/50 , G06F15/173
Abstract: 本发明公开了一种面向芯粒故障感知的神经网络开销估计方法和系统,该方法包括以下步骤:获取芯粒故障后的不规则芯粒拓扑结构、不规则芯粒路由表、芯粒参数信息和算子参数信息;基于不规则芯粒拓扑结构和不规则芯粒路由表获取神经网络计算图在芯粒系统上的故障感知的调度策略,包括计算图、算子划分与资源数量分配策略和算子映射策略;对深度学习并行训练系统进行神经网络推理开销估计,包括获取计算开销、争用开销、算子内通信开销和算子间通信开销。本发明方法能够通过对故障芯粒的建模实现对神经网络在芯粒上的性能开销进行准确估计,为芯粒的设计和优化提供指导,为开发更高效的神经网络加速器提供有力支持。
-
公开(公告)号:CN117632148A
公开(公告)日:2024-03-01
申请号:CN202311611108.X
申请日:2023-11-29
Applicant: 之江实验室
Abstract: 本发明公开了一种面向芯粒的深度大模型容错部署优化方法和系统,该方法包括以下步骤:获取深度大模型的计算图、算子的划分策略及故障芯粒不规则拓扑结构;通过优化算子的划分策略和硬件资源数量分配策略,最小化计算图的计算开销、通信开销和随机映射的链路争用开销,得到算子的最佳划分策略和最佳资源分配数量;通过优化算子基于芯粒不规则拓扑结构的硬件映射策略,最小化芯粒故障网络的链路争用开销,得到算子的最佳映射方案;将上述开销视为总执行开销,通过迭代优化最小化总执行开销,最终获得最佳调度方案。本发明方法能够得到推理性能更强大且执行开销更小的调度方案,推动深度学习大模型在芯粒上的容错部署和优化技术的发展和应用。
-