一种面向深度学习训练任务的分布式加速方法及系统

    公开(公告)号:CN109902818A

    公开(公告)日:2019-06-18

    申请号:CN201910035752.4

    申请日:2019-01-15

    Abstract: 本发明涉及一种面向深度学习训练任务的分布式加速方法及系统。该方法的步骤包括:(1)搭建分布式GPU训练集群;(2)采用换入换出策略,调节分布式GPU训练集群中单个GPU工作节点上的minibatch size;(3)根据步骤2)确定的minibatch size调整学习率;(4)采用步骤(2)和(3)确定的超参数minibatch size和学习率进行深度学习训练。本发明在不影响训练准确率的前提下,简单高效地通过减少集群间参数更新通信的次数大幅度地压缩通信时间,相较于单GPU模式,在多GPU模式下能够充分提高集群扩展效率,对超深神经网络模型的训练过程实现加速。

Patent Agency Ranking