-
公开(公告)号:CN110033095A
公开(公告)日:2019-07-19
申请号:CN201910159918.3
申请日:2019-03-04
Applicant: 北京大学
IPC: G06N20/00
Abstract: 本发明涉及一种高可用分布式机器学习计算框架的容错方法和系统。该方法建立分布式机器学习框架,包括多个Master节点、多个Server节点、多个Agent节点,其中Agent节点和Server节点、Master节点通信,每个Server节点存储一部分参数,每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录其它节点的信息及机器学习任务相关的信息;Master节点组成高可用的Master集群,通过分布式一致性哈希算法和参数备份实现Server节点的高可用,通过重新启动进行Agent节点的故障恢复。本发明能够提高分布式机器学习系统的高可用性,能够灵活高效地进行故障恢复。