面向异构序列负载的灵活大模型训练方法及系统

    公开(公告)号:CN119886324A

    公开(公告)日:2025-04-25

    申请号:CN202411752047.3

    申请日:2024-12-02

    Applicant: 北京大学

    Abstract: 本发明公开一种面向异构序列负载的灵活大模型训练方法及系统,属于大模型技术领域。所述方法包括:将一个训练数据批次划分为若干微批次;其中,一个训练数据批次由若干个序列组成;对于每一微批次,通过最小化该微批次的最大执行时间,将该微批次中的序列分配到不同SP组,以生成最优序列并行策略;基于该最优序列并行策略,在大模型上执行该微批次的训练,并将反向传播得到的梯度进行累加,以更新大模型参数。本发明可以根据实际训练时实时的工作负载的序列长度情况,求解最优的序列并行方案,减少高的序列并行度带来的低效的跨节点通信,提高大模型在长序列场景下训练的效率。

    稀疏注意力计算模型及方法、电子设备和存储介质

    公开(公告)号:CN117131901A

    公开(公告)日:2023-11-28

    申请号:CN202210531111.X

    申请日:2022-05-16

    Abstract: 本发明公开了一种稀疏注意力计算模型及方法、电子设备和存储介质。其中,模型包括多个依次连接的transformer层;其中,前预设数量个transformer层为浅层transformer层,其余数量个transformer层为深层transformer层;用于将输入的数据依次在每层transformer层进行处理,输出注意力计算结果;模式选择器,连接最后一个浅层transformer层和每个深层transformer层,用于接收最后一个浅层transformer层输出的隐向量;根据所述最后一个浅层transformer层输出的隐向量,输出预设多个稀疏模式分别对应的权重;将所述预设多个稀疏模式分别对应的权重分别输入所述每个深层transformer层,使得所述每个深层transformer层基于所述预设多个稀疏模式分别对应的权重进行稀疏注意力计算。采用本发明提供的方案能减少浮点运算次数和运行时内存的占用,并保证模型精度不受损。

Patent Agency Ranking