-
公开(公告)号:CN118101579A
公开(公告)日:2024-05-28
申请号:CN202311300147.8
申请日:2023-10-09
Applicant: 中南大学
IPC: H04L47/27 , H04L47/10 , H04L47/122
Abstract: 本发明公开了一种进度感知的分布式机器学习网内聚合传输方法,分布式机器学习的梯度分组被工作节点发送至交换机的聚合器进行聚合,以消减网络流量。交换机每收到一个梯度分组,则立即向相应源工作节点回复分组确认,从而触发各个工作节点异步更新拥塞窗口并发送新的梯度分组,避免部分节点拖尾导致所有节点同步阻塞的问题。同时,交换机实时计算每个工作节点的传输进度、网络拥塞状态和聚合器拥塞状态,并反馈回各个工作节点。工作节点采用拥塞窗口和异步程度窗口协同控制梯度分组的发送速率。拥塞窗口根据网络拥塞状态和工作节点传输进度调节。传输进度慢的节点比进度快的节点分配更多带宽,缓解拖尾问题。异步程度窗口控制根据聚合器拥塞状态调节,控制工作节点在交换机上的聚合器占用数量,避免任务饥饿。两种窗口中的较小值决定了梯度分组的发送速率。本发明提高了分布式机器学习网内聚合效率,降低了模型训练时间。