一种高可用分布式机器学习计算框架的容错方法和系统

    公开(公告)号:CN110033095A

    公开(公告)日:2019-07-19

    申请号:CN201910159918.3

    申请日:2019-03-04

    Applicant: 北京大学

    Abstract: 本发明涉及一种高可用分布式机器学习计算框架的容错方法和系统。该方法建立分布式机器学习框架,包括多个Master节点、多个Server节点、多个Agent节点,其中Agent节点和Server节点、Master节点通信,每个Server节点存储一部分参数,每个Agent节点存储一部分训练数据,计算本地的参数更新量;Master节点记录其它节点的信息及机器学习任务相关的信息;Master节点组成高可用的Master集群,通过分布式一致性哈希算法和参数备份实现Server节点的高可用,通过重新启动进行Agent节点的故障恢复。本发明能够提高分布式机器学习系统的高可用性,能够灵活高效地进行故障恢复。

Patent Agency Ranking