一种面向云际环境的大模型分布式训练方法及相关设备

    公开(公告)号:CN116341652A

    公开(公告)日:2023-06-27

    申请号:CN202310133976.5

    申请日:2023-02-08

    Abstract: 本发明针对使用跨地域算力中心算力进行深度模型训练的场景需求,设计了一种面向云际环境的深度模型训练方法,采用按照网络层次拆分模型参数到不同算力中心、跨域算力节点间采用压缩通信、算力中心内和算力中心间采用混合并行等策略,实现利用跨域算力协同完成深度模型训练。本发明可以使大模型训练不再受单算力中心算力资源的限制,能够高效利用跨域算力中心的算力,在低带宽环境下利用跨域算力协同完成大规模模型的训练任务。

Patent Agency Ranking