-
公开(公告)号:CN109445953A
公开(公告)日:2019-03-08
申请号:CN201811000167.2
申请日:2018-08-30
Applicant: 北京大学
Abstract: 本发明公开一种面向大规模机器学习系统的机器学习模型训练方法。本方法为:1)将面向机器学习任务的专用计算机系统抽象为非一致性分布式内存的机器学习系统;2)各计算节点上的机器学习模型从该机器学习系统中读取本轮训练所需的训练数据和机器学习模型最新的参数数据;3)各计算节点分别利用当前获取的训练数据和参数数据训练本地的机器学习模型,计算机器学习模型的参数更新量并将其上传到该机器学习系统;4)该机器学习系统根据用户配置的参数更新方案和当前收到的参数更新量对参数进行更新。本发明使得机器学习算法的开发者无需关注分布式的具体实现,大大降低了大规模机器学习算法开发的难度。
-
公开(公告)号:CN108280522B
公开(公告)日:2021-08-20
申请号:CN201810004566.X
申请日:2018-01-03
Applicant: 北京大学
Abstract: 本发明公开了一种插件式分布式机器学习计算框架及其数据处理方法。本发明包括一个主控制节点、多个服务器节点和多个工作节点;每个服务器节点存储机器学习模型的一部分参数,各服务器节点存储的参数组成该机器学习模型的全部待训练的参数;每一工作节点存储一部分训练数据,工作节点根据存储的训练数据从对应服务器获取相关的参数,然后计算参数的更新量后将参数更新量回传给对应服务器;每一工作节点中设置一核心实例进程和一参数代理进程;核心实例进程通过参数代理进程与服务器节点进行通信,核心实例进程和参数代理进程之间通过一个与编程语言无关的通道进行数据传输和同步。本发明易于将任意语言编写的单机机器学习程序扩展成分布式程序。
-
公开(公告)号:CN108280522A
公开(公告)日:2018-07-13
申请号:CN201810004566.X
申请日:2018-01-03
Applicant: 北京大学
CPC classification number: G06N99/005 , G06F8/22 , H04L67/10 , H04L67/28
Abstract: 本发明公开了一种插件式分布式机器学习计算框架及其数据处理方法。本发明包括一个主控制节点、多个服务器节点和多个工作节点;每个服务器节点存储机器学习模型的一部分参数,各服务器节点存储的参数组成该机器学习模型的全部待训练的参数;每一工作节点存储一部分训练数据,工作节点根据存储的训练数据从对应服务器获取相关的参数,然后计算参数的更新量后将参数更新量回传给对应服务器;每一工作节点中设置一核心实例进程和一参数代理进程;核心实例进程通过参数代理进程与服务器节点进行通信,核心实例进程和参数代理进程之间通过一个与编程语言无关的通道进行数据传输和同步。本发明易于将任意语言编写的单机机器学习程序扩展成分布式程序。
-
-