基于网络流速率控制的分布式机器学习训练系统及方法

    公开(公告)号:CN119918618A

    公开(公告)日:2025-05-02

    申请号:CN202411815653.5

    申请日:2024-12-11

    Applicant: 湖南大学

    Abstract: 一种基于网络流速率控制的分布式机器学习训练系统,包括流量信息收集器模块和作业调度器模块;流量信息收集器模块在交换机上收集作业流通信模式中的字节数和记录数据包到达的时间戳,并且计算出作业流的剩余迭代完成时间;作业调度器模块根据作业流的剩余迭代完成时间来决定作业的优先级,使得交换机优先发送剩余迭代完成时间最短的作业流。本发明的基于网络流速率控制的分布式机器学习训练系统及方法,能显著提高网络链路的利用率;通过优化作业流的通信阶段,使得训练任务,例如DNN训练任务能够更高效地共享网络资源,从而减少了网络拥塞和空闲时间。

    一种分布式哈希动态负载均衡方法

    公开(公告)号:CN117519976A

    公开(公告)日:2024-02-06

    申请号:CN202311546490.0

    申请日:2023-11-20

    Applicant: 湖南大学

    Abstract: 一种分布式哈希动态负载均衡方法,包括server节点负载的均衡,包括以下步骤:1)检测各个server节点上储存的表项的个数;2)将高负载server节点上的表项复制到低负载server节点上,并对进行复制的表项进行标记;3)更新server节点和worker节点之间的映射关系。本发明中能动态的调整各个server节点上存储的表项负载,使之达到均衡;能尽最大程度识别需要转移的表项,使得整个系统的负载更加均衡;能提高系统的整体利用率。

Patent Agency Ranking