-
公开(公告)号:CN119150953A
公开(公告)日:2024-12-17
申请号:CN202411176111.8
申请日:2024-08-26
Applicant: 中国科学院计算技术研究所
IPC: G06N3/098 , G06N3/082 , G06N3/0495 , G06F9/50
Abstract: 本发明提出一种分布式训练通信压缩方法、装置、分布式训练系统,该方法包含:将分布式集群中各节点的全局梯度信息进行分组;在每个分组内选择梯度绝对值最大的前K个梯度值,将其余未选中的梯度值置为0,生成稀疏梯度矩阵;在各节点之间共享该稀疏梯度矩阵。该方法可以有效地减少边缘设备训练集群中节点间的通信量,从而实现更高效的分布式协同训练,并且保持模型的精度。