-
公开(公告)号:CN119127477A
公开(公告)日:2024-12-13
申请号:CN202411144019.3
申请日:2024-08-20
Applicant: 中国科学院计算机网络信息中心
Abstract: 一种面向国产超算系统的大模型并行训练策略生成方法,并行训练策略包括并行训练方法、批尺寸、显存优化方法中的至少一种,并行训练策略构成搜索空间,该方法包括:获取生成并行训练策略所需的参数;基于参数,构建多个决策树,多个决策树用于分解并行训练策略的搜索空间,每个决策树用于表征并行策略的一个子搜索空间;基于决策树和参数,通过性能评估方法对模型训练方法进行评估,确定模型在不同的并行策略下的计算性能和通信性能;基于计算性能和通信性能,构建整数规划模型;确定整数规划模型的最优解,将最优解对应的并行训练策略作为确定的并行训练策略。本方法能够针对国产超算系统,生成最为方便快捷的大模型并行训练策略。