-
公开(公告)号:CN116128019A
公开(公告)日:2023-05-16
申请号:CN202211441633.7
申请日:2022-11-17
Applicant: 北京大学
IPC: G06N3/0455 , G06N3/08
Abstract: 本发明提供一种Transformer模型的并行训练方法及装置,涉及计算机技术领域;其中所述Transformer模型的并行训练方法包括:基于M种预设并行训练策略,确定初始Transformer模型的并行训练策略搜索空间;基于各预设并行训练策略,构建至少一棵决策树;决策树用于从并行训练策略搜索空间中确定初始Transformer模型的并行训练策略集合;基于训练策略集合,确定目标并行训练策略组合;利用目标并行训练策略组合对初始Transformer模型进行训练,得到目标Transformer模型。利用吞吐率最高的目标并行训练策略组合对初始Transformer模型进行训练,提高了对模型的训练效率。