- 专利标题: 同步数据并行训练控制方法、系统、装置、设备及介质
-
申请号: CN202310961731.1申请日: 2023-08-02
-
公开(公告)号: CN116702885B公开(公告)日: 2023-11-07
- 发明人: 曹芳 , 王丽 , 郭振华 , 赵雅倩
- 申请人: 浪潮电子信息产业股份有限公司
- 申请人地址: 山东省济南市高新区浪潮路1036号
- 专利权人: 浪潮电子信息产业股份有限公司
- 当前专利权人: 浪潮电子信息产业股份有限公司
- 当前专利权人地址: 山东省济南市高新区浪潮路1036号
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 郭庆玲
- 主分类号: G06N3/098
- IPC分类号: G06N3/098 ; G06N3/084 ; G06F9/48 ; G06F9/50
摘要:
本发明涉及计算机领域,具体公开了一种同步数据并行训练控制方法、系统、装置、设备及介质,通过在当前次迭代训练中确定各计算节点中的滞后节点,在已完成当前次迭代训练的计算节点中确定对滞后节点的帮算节点,并在帮算节点上分配与滞后节点相同的训练数据进行训练,在得到当前次迭代训练的所有训练数据对应的梯度数据后通知各计算节点结束计算任务并执行梯度数据同步操作,实现了同步数据并行训练,避免对模型引入陈旧性模型参数,保证了模型的收敛速度和精度需求,且能够避免在同步数据并行训练中有计算节点处于空闲状态而有计算节点处于滞后状态的情况下大量拖延迭代训练时间,实现了高训练效率、高模型精度的兼得,充分利用了计算节点资源。
公开/授权文献
- CN116702885A 同步数据并行训练控制方法、系统、装置、设备及介质 公开/授权日:2023-09-05