-
公开(公告)号:CN119918618A
公开(公告)日:2025-05-02
申请号:CN202411815653.5
申请日:2024-12-11
Applicant: 湖南大学
IPC: G06N3/098 , G06N3/0499
Abstract: 一种基于网络流速率控制的分布式机器学习训练系统,包括流量信息收集器模块和作业调度器模块;流量信息收集器模块在交换机上收集作业流通信模式中的字节数和记录数据包到达的时间戳,并且计算出作业流的剩余迭代完成时间;作业调度器模块根据作业流的剩余迭代完成时间来决定作业的优先级,使得交换机优先发送剩余迭代完成时间最短的作业流。本发明的基于网络流速率控制的分布式机器学习训练系统及方法,能显著提高网络链路的利用率;通过优化作业流的通信阶段,使得训练任务,例如DNN训练任务能够更高效地共享网络资源,从而减少了网络拥塞和空闲时间。
-
公开(公告)号:CN117955921A
公开(公告)日:2024-04-30
申请号:CN202410184147.4
申请日:2024-02-19
Applicant: 湖南大学
IPC: H04L47/263 , H04L47/35
Abstract: 一种基于RDMA通信的网络流速率的控制方法,包括以下步骤:控制器获取当前RDMA流的当前速率与目标速率以及网络数据传输速率信息;2)控制器根据步骤1)的当前速率与目标速率以及网络数据传输速率信息计算得出当前数据包发送的最佳发送速率;3)控制器按照步骤2)计算出的最佳发送速率,改变该数据包中携带的链路拥塞信息;4)网卡根据步骤3)修改或者添加后的流速率信息,调整发送速率发送后续数据包。本发明的基于RDMA通信的网络流速率的控制方法的控制器可以设置在网卡中,也可以设置在交换机或者设置在独立于网卡与交换机的硬件模块上,这使得本发明的网络流速率的控制方法可以以灵活、低成本的方式进行实现与部署。
-