一种分布式深度学习参数量化通信优化方法及系统

    公开(公告)号:CN109635922B

    公开(公告)日:2022-12-02

    申请号:CN201811382970.7

    申请日:2018-11-20

    Abstract: 本发明公开了一种基于离散余弦变换的分布式深度学习参数量化通信优化方法及系统,将分布式深度学习中的梯度值进行离散余弦变换后,再压缩处理,更新权重时反量化操作,形成一种通信高效的分布式深度学习系统。在工作节点发送梯度数据到参数服务器之前,采用梯度划分、GPU并行计算、离散余弦变换与量化及高频滤波压缩方法处理梯度值,然后推送至参数服务器。工作节点通过拉取操作,从参数服务器得到权重之后,采用离散余弦反变换与反量化、误差补偿更新方法更新当前工作节点上的权重。本发明能够有效提升现有的分布式深度学习框架中,工作节点和参数服务器之间的通信效率,提高模型训练速度。

    一种大规模分布式深度学习的资源管理方法及系统

    公开(公告)号:CN111858072A

    公开(公告)日:2020-10-30

    申请号:CN202010784598.3

    申请日:2020-08-06

    Abstract: 本发明公开了一种大规模分布式深度学习的资源管理方法及系统,在神经网络的训练运行时,实现针对参数及梯度等中间数据的内存资源优化管理,同时保障分布式通信带宽资源的合理配置。重新实现跨层内存复用,将迭代计算及稀疏通信所需的中间数据迁入CPU主存,并在随后按需迁回,减轻层间内存消耗;并在CPU-GPU数据合理迁移的基础上,实现层内内存复用,挖掘层内计算和内存访问操作的独立性,尽可能的减轻层内内存消耗。在保证内存资源高效利用的同时,实现分布式参数通信优化。对分布式参数更新阶段的数据访问进行合理重定向,将CPU主存作为镜像访问区域,完成对参数及梯度的数据访问,解决了梯度数据缺失及参数写入越界的问题。

Patent Agency Ranking