-
公开(公告)号:CN111612155B
公开(公告)日:2023-05-05
申请号:CN202010411839.X
申请日:2020-05-15
Applicant: 湖南大学
Abstract: 本发明公开了一种分布式机器学习系统及适用于其的通信调度方法,其方法为:在分布式机器学习系统的参数服务器或交换机的网络芯片上增设自动机,通过自动机识别分布式机器学习系统中的参数服务器和工作节点;参数服务器依次向每个工作节点发送对应分配的参数,在同一时间点只向一个工作节点发送对应分配的参数;每个工作节点从参数服务器拉取到参数后,均立即开始根据参数计算梯度;每个工作节点在完成梯度计算后,判断此时的参数服务器是否在接收其他工作节点推送的梯度,若否,则将当前工作节点计算得到的梯度推送给参数服务器。本发明对分布式机器学习系统的通信进行合理调度,有效降低分布式机器学习的通信时间成本。
-
公开(公告)号:CN111612155A
公开(公告)日:2020-09-01
申请号:CN202010411839.X
申请日:2020-05-15
Applicant: 湖南大学
Abstract: 本发明公开了一种分布式机器学习系统及适用于其的通信调度方法,其方法为:在分布式机器学习系统的参数服务器或交换机的网络芯片上增设自动机,通过自动机识别分布式机器学习系统中的参数服务器和工作节点;参数服务器依次向每个工作节点发送对应分配的参数,在同一时间点只向一个工作节点发送对应分配的参数;每个工作节点从参数服务器拉取到参数后,均立即开始根据参数计算梯度;每个工作节点在完成梯度计算后,判断此时的参数服务器是否在接收其他工作节点推送的梯度,若否,则将当前工作节点计算得到的梯度推送给参数服务器。本发明对分布式机器学习系统的通信进行合理调度,有效降低分布式机器学习的通信时间成本。
-