-
公开(公告)号:CN109635945B
公开(公告)日:2022-12-02
申请号:CN201811389548.4
申请日:2018-11-21
Applicant: 华中科技大学
IPC: G06N3/08 , G06V10/764
Abstract: 本发明公开了一种用于图像分类的深度神经网络的训练方法,在神经网络的训练过程中,对隐藏层的类型进行划分,根据特征图迁移成本和计算成本的大小关系,将神经网络中的隐藏层分为计算敏感型层和迁移敏感型层,由于计算敏感型层的特征图的计算成本较高,故对其使用迁移方式处理,在降低内存成本的同时保持较小的性能开销,同理,对迁移敏感型层使用重新计算方式处理特征图。对于后向计算过程中的梯度图,使用引用计数方式跟踪每个梯度图的依赖关系,当其引用计数为0时,将其使用的内存空间回收并留给其他梯度图复用。通过对特征图和梯度图的优化,与标准的反向传播算法相比,能够显著降低神经网络训练时的内存成本,同时保持较小的性能开销。
-
公开(公告)号:CN109635922B
公开(公告)日:2022-12-02
申请号:CN201811382970.7
申请日:2018-11-20
Applicant: 华中科技大学
IPC: G06N3/04
Abstract: 本发明公开了一种基于离散余弦变换的分布式深度学习参数量化通信优化方法及系统,将分布式深度学习中的梯度值进行离散余弦变换后,再压缩处理,更新权重时反量化操作,形成一种通信高效的分布式深度学习系统。在工作节点发送梯度数据到参数服务器之前,采用梯度划分、GPU并行计算、离散余弦变换与量化及高频滤波压缩方法处理梯度值,然后推送至参数服务器。工作节点通过拉取操作,从参数服务器得到权重之后,采用离散余弦反变换与反量化、误差补偿更新方法更新当前工作节点上的权重。本发明能够有效提升现有的分布式深度学习框架中,工作节点和参数服务器之间的通信效率,提高模型训练速度。
-
公开(公告)号:CN107018184A
公开(公告)日:2017-08-04
申请号:CN201710191685.6
申请日:2017-03-28
Applicant: 华中科技大学
Abstract: 本发明公开了一种分布式深度神经网络集群分组同步优化方法及系统,其中,方法的实现包括:对集群中的节点按性能分组、训练数据按节点性能分配、同组内使用同步并行机制、不同组间使用异步并行机制和不同组间使用不同的学习率。将性能相近的节点分为一组,可以减小同步开销;性能好的节点分配更多的训练数据,可以提高其资源利用率;在同步开销小的组内使用同步并行机制,可以发挥同步并行机制收敛效果好的优点;在同步开销大的组间使用异步并行机制,可以避免同步开销;对不同分组使用不同的学习率,有利于模型收敛。本发明针对异构集群中分布式深度神经网络的参数同步过程,使用了分组同步方法,大大提高了模型的收敛速度。
-
公开(公告)号:CN106991474A
公开(公告)日:2017-07-28
申请号:CN201710191684.1
申请日:2017-03-28
Applicant: 华中科技大学
Abstract: 本发明公开了一种深度神经网络模型并行的全连接层数据交换方法及系统,将深度神经网络的全连接层按神经元的数目均匀划分到N个训练单元上,形成一种在深度神经网络中全连接层模型并行的网络模型;在全连接层的前向传播过程中,采用半停等前向传播方法对前层的输入数据,采取部分到达、部分计算、整体输出和整体传播的处理方式;在全连接层的后向传播过程中,采用定停等后向传播方法对后层的残差数据,采取定量达到、定量计算和定量传播的处理方式;在一次前向与后向传播完成后,依据所求的权值梯度与阈值梯度,并行地更新各层的权值数据与阈值数据。能够将全连接层的数据通信与数据计算进行重叠,在保证正确率的前提下加速模型的收敛。
-
公开(公告)号:CN111027671B
公开(公告)日:2023-07-04
申请号:CN201911105252.X
申请日:2019-11-12
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于模型结构特性的分布式深度学习通信方法和系统,属于深度学习领域。包括:使用分布式集群预训练深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和Tij,对于每个server,对在[min{ti′j},min{ti′j+Ti′j})期间收集到的第j层网络梯度,在min{ti′j+Ti′j}时间点进行累加,并用累加梯度更新权值参数。本发明根据网络各层的前向计算与后向计算所需时间及在网络位置,限制server接收梯度的时间,实现多机间的软同步,对每一层采用不同的同步节点个数,消除迭代计算中等待时间。根据梯度的陈旧度对其缩放,减小陈旧梯度的影响,在保证训练精度的前提下,提高分布式深度学习通信效率,加快训练速度。
-
公开(公告)号:CN107018184B
公开(公告)日:2019-08-30
申请号:CN201710191685.6
申请日:2017-03-28
Applicant: 华中科技大学
Abstract: 本发明公开了一种分布式深度神经网络集群分组同步优化方法及系统,其中,方法的实现包括:对集群中的节点按性能分组、训练数据按节点性能分配、同组内使用同步并行机制、不同组间使用异步并行机制和不同组间使用不同的学习率。将性能相近的节点分为一组,可以减小同步开销;性能好的节点分配更多的训练数据,可以提高其资源利用率;在同步开销小的组内使用同步并行机制,可以发挥同步并行机制收敛效果好的优点;在同步开销大的组间使用异步并行机制,可以避免同步开销;对不同分组使用不同的学习率,有利于模型收敛。本发明针对异构集群中分布式深度神经网络的参数同步过程,使用了分组同步方法,大大提高了模型的收敛速度。
-
公开(公告)号:CN109635922A
公开(公告)日:2019-04-16
申请号:CN201811382970.7
申请日:2018-11-20
Applicant: 华中科技大学
IPC: G06N3/04
CPC classification number: G06N3/0454
Abstract: 本发明公开了一种基于离散余弦变换的分布式深度学习参数量化通信优化方法及系统,将分布式深度学习中的梯度值进行离散余弦变换后,再压缩处理,更新权重时反量化操作,形成一种通信高效的分布式深度学习系统。在工作节点发送梯度数据到参数服务器之前,采用梯度划分、GPU并行计算、离散余弦变换与量化及高频滤波压缩方法处理梯度值,然后推送至参数服务器。工作节点通过拉取操作,从参数服务器得到权重之后,采用离散余弦反变换与反量化、误差补偿更新方法更新当前工作节点上的权重。本发明能够有效提升现有的分布式深度学习框架中,工作节点和参数服务器之间的通信效率,提高模型训练速度。
-
公开(公告)号:CN111027671A
公开(公告)日:2020-04-17
申请号:CN201911105252.X
申请日:2019-11-12
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于模型结构特性的分布式深度学习通信方法和系统,属于深度学习领域。包括:使用分布式集群预训练深度神经网络模型,对于每台机器,计算各层网络之前所有层的前向计算与后向计算所用时间总和Tij,对于每个server,对在[min{ti′j},min{ti′j+Ti′j})期间收集到的第j层网络梯度,在min{ti′j+Ti′j}时间点进行累加,并用累加梯度更新权值参数。本发明根据网络各层的前向计算与后向计算所需时间及在网络位置,限制server接收梯度的时间,实现多机间的软同步,对每一层采用不同的同步节点个数,消除迭代计算中等待时间。根据梯度的陈旧度对其缩放,减小陈旧梯度的影响,在保证训练精度的前提下,提高分布式深度学习通信效率,加快训练速度。
-
公开(公告)号:CN106991474B
公开(公告)日:2019-09-24
申请号:CN201710191684.1
申请日:2017-03-28
Applicant: 华中科技大学
Abstract: 本发明公开了一种深度神经网络模型并行的全连接层数据交换方法及系统,将深度神经网络的全连接层按神经元的数目均匀划分到N个训练单元上,形成一种在深度神经网络中全连接层模型并行的网络模型;在全连接层的前向传播过程中,采用半停等前向传播方法对前层的输入数据,采取部分到达、部分计算、整体输出和整体传播的处理方式;在全连接层的后向传播过程中,采用定停等后向传播方法对后层的残差数据,采取定量达到、定量计算和定量传播的处理方式;在一次前向与后向传播完成后,依据所求的权值梯度与阈值梯度,并行地更新各层的权值数据与阈值数据。能够将全连接层的数据通信与数据计算进行重叠,在保证正确率的前提下加速模型的收敛。
-
公开(公告)号:CN109635945A
公开(公告)日:2019-04-16
申请号:CN201811389548.4
申请日:2018-11-21
Applicant: 华中科技大学
CPC classification number: G06N3/08 , G06K9/6267 , G06N3/084
Abstract: 本发明公开了一种用于图像分类的深度神经网络的训练方法,在神经网络的训练过程中,对隐藏层的类型进行划分,根据特征图迁移成本和计算成本的大小关系,将神经网络中的隐藏层分为计算敏感型层和迁移敏感型层,由于计算敏感型层的特征图的计算成本较高,故对其使用迁移方式处理,在降低内存成本的同时保持较小的性能开销,同理,对迁移敏感型层使用重新计算方式处理特征图。对于后向计算过程中的梯度图,使用引用计数方式跟踪每个梯度图的依赖关系,当其引用计数为0时,将其使用的内存空间回收并留给其他梯度图复用。通过对特征图和梯度图的优化,与标准的反向传播算法相比,能够显著降低神经网络训练时的内存成本,同时保持较小的性能开销。
-
-
-
-
-
-
-
-
-