一种面向人工智能大模型高效训练的并行策略搜索方法

    公开(公告)号:CN116680301A

    公开(公告)日:2023-09-01

    申请号:CN202310781759.7

    申请日:2023-06-29

    Applicant: 南京大学

    Inventor: 李武军 林昊 吴轲

    Abstract: 本发明公开了一种面向人工智能大模型高效训练的并行策略搜索方法,步骤如下:输入大模型;获取系统执行性能信息和大模型的执行性能信息;利用代价模型估计大模型在当前系统上的执行时间开销和存储开销;以流水线并行训练的每次迭代所花费的时间为优化目标,建立用于自动搜索大模型的并行训练策略的混合整数二次规划数学模型并求解;输出最优的大模型的并行训练策略。本发明支持流水线并行、数据并行、张量并行和优化器并行,策略空间大,搜索时间短,可应用于大模型的单机多卡并行训练和多机集群的分布式训练,提升大模型的训练效率。

    一种适用于异构集群的深度学习模型自动并行训练方法

    公开(公告)号:CN119440841A

    公开(公告)日:2025-02-14

    申请号:CN202411558728.6

    申请日:2024-11-04

    Applicant: 南京大学

    Abstract: 本发明公开一种适用于异构集群的深度学习模型自动并行训练方法,接受训练所需的异构集群与深度学习模型为输入;对于深度学习模型,获取其在训练系统上的执行性能信息;对于训练所需集群,获取集群的执行性能信息,并生成集群的最大同构节点集合与节点集合划分;随后遍历每种节点集合划分,对于其内部包含的所有节点集合,求解该节点集合的最大吞吐量;随后通过基于整数二次规划方法的负载均衡算法求解当前节点集合划分的最大吞吐量,从而求解出所有节点集合划分中的最优策略并输出。本发明支持在异构集群设置下求解给定深度学习模型的最优并行策略。可应用于由同构或异构设备组成的单机多卡、多机多卡等多种分布式训练环境。训练效率高,能耗少。

Patent Agency Ranking