Patent search ap:("北京大学") AND inv:"宋煦" Page 1

1.

发明公开
一种高可用分布式机器学习计算框架的容错方法和系统无效

公开(公告)号：CN110033095A

公开(公告)日：2019-07-19

申请号：CN201910159918.3

申请日：2019-03-04

Applicant: 北京大学

Inventor： 郑培凯 , 李真 , 张晨滨 , 宋煦 , 肖臻

IPC: G06N20/00

Abstract: 本发明涉及一种高可用分布式机器学习计算框架的容错方法和系统。该方法建立分布式机器学习框架，包括多个Master节点、多个Server节点、多个Agent节点，其中Agent节点和Server节点、Master节点通信，每个Server节点存储一部分参数，每个Agent节点存储一部分训练数据，计算本地的参数更新量；Master节点记录其它节点的信息及机器学习任务相关的信息；Master节点组成高可用的Master集群，通过分布式一致性哈希算法和参数备份实现Server节点的高可用，通过重新启动进行Agent节点的故障恢复。本发明能够提高分布式机器学习系统的高可用性，能够灵活高效地进行故障恢复。

Patent Agency Ranking