一种分布式深度学习的通信优化方法及系统

    公开(公告)号:CN109951438B

    公开(公告)日:2020-11-20

    申请号:CN201910035739.9

    申请日:2019-01-15

    Abstract: 本发明涉及一种分布式深度学习的通信优化方法及系统。该方法包括:1)对于分布式深度学习的训练过程中各计算节点产生的梯度,采用稀疏化方法选取部分梯度值;2)对采用稀疏化方法选取的部分梯度值进行量化,将量化后的梯度值作为梯度通信的传输对象,传输给参数服务器。本发明提出了梯度的稀疏化传递和量化压缩的结合,并且针对训练过程中的不同特点划分了三个不同的训练阶段,根据不同的训练状况进行调整,将梯度压缩的效果进一步提升,提高了分布式场景下的训练效率,并且没有对收敛性能和模型的精度产生明显的负面影响。

    一种分布式深度学习的通信优化方法及系统

    公开(公告)号:CN109951438A

    公开(公告)日:2019-06-28

    申请号:CN201910035739.9

    申请日:2019-01-15

    Abstract: 本发明涉及一种分布式深度学习的通信优化方法及系统。该方法包括:1)对于分布式深度学习的训练过程中各计算节点产生的梯度,采用稀疏化方法选取部分梯度值;2)对采用稀疏化方法选取的部分梯度值进行量化,将量化后的梯度值作为梯度通信的传输对象,传输给参数服务器。本发明提出了梯度的稀疏化传递和量化压缩的结合,并且针对训练过程中的不同特点划分了三个不同的训练阶段,根据不同的训练状况进行调整,将梯度压缩的效果进一步提升,提高了分布式场景下的训练效率,并且没有对收敛性能和模型的精度产生明显的负面影响。

Patent Agency Ranking