混合专家模型训练的性能优化方法和装置

    公开(公告)号:CN114429195B

    公开(公告)日:2024-07-19

    申请号:CN202210071043.3

    申请日:2022-01-21

    Applicant: 清华大学

    Inventor: 翟季冬 何家傲

    Abstract: 本发明提供了一种混合专家模型训练的性能优化方法和装置,涉及神经网络技术领域,所述方法包括:在一次迭代计算前,对于所述混合专家模型中所有专家中的每一个,判定当前专家是否被设置为影子专家,若是,将当前专家添加至影子专家集合,继续判定下一个专家是否被设置为影子专家直至所有专家被判定完成。本发明能够提高混合专家模型的训练速度和效率,减少混合专家模型在训练时所耗费的资源。

    一种分布式处理系统、任务调度方法、参数确定方法

    公开(公告)号:CN118394495A

    公开(公告)日:2024-07-26

    申请号:CN202410254588.7

    申请日:2024-03-06

    Applicant: 清华大学

    Inventor: 翟季冬 何家傲

    Abstract: 本发明提供一种分布式处理系统、任务调度方法、参数确定方法,所述分布式处理系统包括第一模块和第二模块,第一模块与每个第二模块通信连接;第一模块包括神经网络加速器,第二模块包括至少一个处理单元;神经网络加速器用于根据序列生成任务的输入特征向量计算获得第一特征向量并将第一特征向量发送给所至少一个处理单元;神经网络加速器还用于根据第二特征向量计算获得对应的输出结果;所述至少一个处理单元用于存储第一特征向量,根据第一特征向量计算获得第二特征向量并将所述第二特征向量发送给所述神经网络加速器。本发明实施例提供的分布式处理系统、任务调度方法、参数确定方法,提高了分布式处理系统的计算效率。

    混合专家模型训练的性能优化方法和装置

    公开(公告)号:CN114429195A

    公开(公告)日:2022-05-03

    申请号:CN202210071043.3

    申请日:2022-01-21

    Applicant: 清华大学

    Inventor: 翟季冬 何家傲

    Abstract: 本发明提供了一种混合专家模型训练的性能优化方法和装置,涉及神经网络技术领域,所述方法包括:在一次迭代计算前,对于所述混合专家模型中所有专家中的每一个,判定当前专家是否被设置为影子专家,若是,将当前专家添加至影子专家集合,继续判定下一个专家是否被设置为影子专家直至所有专家被判定完成。本发明能够提高混合专家模型的训练速度和效率,减少混合专家模型在训练时所耗费的资源。

    一种用于混合专家模型的并行训练方法及装置

    公开(公告)号:CN116502680B

    公开(公告)日:2023-09-19

    申请号:CN202310789205.1

    申请日:2023-06-30

    Applicant: 清华大学

    Abstract: 本申请提供了一种用于混合专家模型的并行训练方法及装置,属于深度学习技术领域,其中一实施例的并行训练方法包括:根据混合专家模型的配置信息和硬件信息,生成多组候选并行策略;在当前训练周期中,根据混合专家模型的当前负载情况,从多组候选并行策略中确定目标并行策略;确定在当前训练周期的上一个训练周期中所使用的历史并行策略;基于历史并行策略和目标并行策略中较优的一个,训练混合专家模型。本申请技术方案提供一种用于混合专家模型的自动并行训练方法,通过首先确定并行策略集合,并根据负载情况对并行策略进行切换,能够在引入专家策略的基础上有效解决负载均衡问题,提高对混合专家模型的并行训练效率。

    一种用于混合专家模型的并行训练方法及装置

    公开(公告)号:CN116502680A

    公开(公告)日:2023-07-28

    申请号:CN202310789205.1

    申请日:2023-06-30

    Applicant: 清华大学

    Abstract: 本申请提供了一种用于混合专家模型的并行训练方法及装置,属于深度学习技术领域,其中一实施例的并行训练方法包括:根据混合专家模型的配置信息和硬件信息,生成多组候选并行策略;在当前训练周期中,根据混合专家模型的当前负载情况,从多组候选并行策略中确定目标并行策略;确定在当前训练周期的上一个训练周期中所使用的历史并行策略;基于历史并行策略和目标并行策略中较优的一个,训练混合专家模型。本申请技术方案提供一种用于混合专家模型的自动并行训练方法,通过首先确定并行策略集合,并根据负载情况对并行策略进行切换,能够在引入专家策略的基础上有效解决负载均衡问题,提高对混合专家模型的并行训练效率。

Patent Agency Ranking