-
公开(公告)号:CN116644803B
公开(公告)日:2023-11-03
申请号:CN202310928131.5
申请日:2023-07-27
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及计算机领域,具体公开了一种分布式协同训练控制方法、系统、装置、设备及存储介质,通过计算节点存储对模型网络的当前次迭代计算中的反向传播计算得到的各层梯度数据,在反向传播计算完毕后再自对应第一层模型网络的梯度数据起依次执行对各层梯度数据的梯度数据聚合操作得到各层聚合梯度数据,在利用接收到的当前次迭代计算的各层聚合梯度数据依次更新模型网络的各层模型参数时,即随着各层模型参数的更新执行对模型网络的下一次迭代计算的前向传播计算,达到下一次迭代计算的前向传播计算和当前次迭代计算的梯度数据聚合操作同时进行的效果,缩短了相邻两次迭代计算的执行时间,进而缩短了整体训练时间,提高了分布式训练效率。
-
公开(公告)号:CN116956756A
公开(公告)日:2023-10-27
申请号:CN202311220752.4
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及深度学习技术领域,并公开了模型部署方法、任务处理方法、装置、设备及存储介质,通过仿真模拟,计算出每一个分组划分策略下的每个组内并行策略的延迟,基于该延迟则可选出最优设备组划分策略和多个最优组内并行策略,并按照选出的策略进行部署,并记录下模型与设备的映射关系,则可满足延迟要求。又由于模型的部署不是一个模型对应一个设备,而是一个模型并行部署于多个设备之上,且一个设备又对应部署了多个模型。因而,在处理任务时,可以实现同一个模型的任务在多个设备上流水并行处理,不同模型的任务在多个设备上并行处理。即,可以在少量设备上满足延迟要求、提升处理效率、应对突发流量,能够极大的提升集群利用率。
-
公开(公告)号:CN119576239A
公开(公告)日:2025-03-07
申请号:CN202411745000.4
申请日:2024-11-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种分布式训练的梯度数据同步方法及设备、介质和产品,涉及计算机技术领域,该方法包括:获取分布式训练系统的二维网络拓扑结构;其中,所述二维网络拓扑结构包括多个节点以及相邻节点之间的有向链路;基于所述二维网络拓扑结构生成N个路径树,其中,N个所述路径树中不包含相同有向链路,N个所述路径树包含的节点的合集覆盖所述二维网络拓扑结构中的所有节点;所述分布式训练系统中的节点将待同步梯度数据划分为N个数据块,分别基于N个路径树对N个所述数据块进行数据同步操作。本发明提高了分布式训练过程中的梯度数据同步效率。
-
公开(公告)号:CN116980423B
公开(公告)日:2024-02-09
申请号:CN202311220749.2
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L67/1008 , H04L67/101 , H04L67/1012 , H04L69/325 , G06N3/0464 , G06N3/08
Abstract: 本发明在深度学习技术领域公开了模型调度方法、装置、计算系统、设备及可读存储介质,该方法包括基于算力优先策略,将模型的网络层映射到计算系统的加速器上,得到调度策略;对特定网络层进行拟重映射,利用加速器的内存,对拟重映射后的调度策略进行通信延迟优化,并获取优化后的系统总延迟;在优化后的系统总延迟低于优化前的系统总延迟的情况下,基于拟重映射,更新重映射后的调度策略;按照重映射后更新的调度策略,对模型进行调度处理。本发明的技术效果:在牺牲较小的计算性能的情况下,获得较大的通信成本的降低,最终提升系统的整体性能,实现计算与通信的均衡,提高了计算和存储资源利用率。
-
公开(公告)号:CN116962176B
公开(公告)日:2024-01-23
申请号:CN202311221193.9
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L41/082 , H04L41/0833 , H04L41/0894 , H04L41/0893 , H04L41/16 , H04L41/044
Abstract: 本发明公开了一种分布式集群的数据处理方法、装置、系统及存储介质,应用于人工智能技术领域,为解决现有资源利用率差的问题,提出分布式集群包括具有多种加速器节点的多组加速器节点组,每个加速器节点上部署有神经网络模型的一个子网络层组;该方法应用于加速器节点组中任一加速器节点,通过预先将分布式集群中的多个加速器节点进行分组,得到多组加速器节点组,再针对任一加速器节点采用部署于当前加速器节点的子网络层组对当前待处理数据进行计算处理得到当前计算结果并对子网络层组中的当前网络参数进行更新,以得到神经网络模型中每个子网络层组各自的更新后的网络参数;资源利用率高,利于提高模型参数更新效率以及
-
公开(公告)号:CN117155928A
公开(公告)日:2023-12-01
申请号:CN202311423755.8
申请日:2023-10-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L67/10 , H04L67/1095 , H04L41/0894
Abstract: 本发明公开了一种通信任务处理方法、系统、设备、集群及可读存储介质,涉及分布式集群领域,为解决通信策略浪费节点内带宽的问题,该方法包括根据预设模型在分布式集群的各个设备上的部署策略,确定分布式集群中的发送节点和接收节点;当存在一个或多个通信任务,将各个通信任务一一对应分配给各个发送设备,对通信任务对应的任务数据进行划分得到多个分区数据,控制通信任务对应的发送设备将多个分区数据依次发送至一个接收节点;针对每一接收节点,控制接收节点对其接收到的分区数据在自身节点内的各个设备中进行数据同步,并将分区数据发送给未接收到分区数据的其他接收节点。本发明能够充分利用节点内的带宽,提升分布式集群的资源利用率。
-
公开(公告)号:CN117155791A
公开(公告)日:2023-12-01
申请号:CN202311423735.0
申请日:2023-10-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L41/0894 , H04L41/14 , H04L41/12 , H04L41/0803 , H04L67/10
Abstract: 本发明公开了一种基于集群拓扑结构的模型部署方法、系统、设备及介质,涉及服务器集群领域,为解决跨中央处理器通信影响通信效率的问题,该方法包括基于服务器集群的配置信息生成拓扑结构树;按拓扑结构树确定各个中央处理器节点对应的算力,基于算力获取最优划分部署方案;按最优划分部署方案对预设模型按其网络层进行划分得到多个模型模块,将各个模型模块部署在各个中央处理器节点下的各个设备节点上,以使服务器集群的各个设备节点之间的通信开销最小。本发明能够使得跨中央处理器节点通信的数据量最小,以提升服务器集群中各个带宽的利用率。
-
公开(公告)号:CN116962176A
公开(公告)日:2023-10-27
申请号:CN202311221193.9
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L41/082 , H04L41/0833 , H04L41/0894 , H04L41/0893 , H04L41/16 , H04L41/044
Abstract: 本发明公开了一种分布式集群的数据处理方法、装置、系统及存储介质,应用于人工智能技术领域,为解决现有资源利用率差的问题,提出分布式集群包括具有多种加速器节点的多组加速器节点组,每个加速器节点上部署有神经网络模型的一个子网络层组;该方法应用于加速器节点组中任一加速器节点,通过预先将分布式集群中的多个加速器节点进行分组,得到多组加速器节点组,再针对任一加速器节点采用部署于当前加速器节点的子网络层组对当前待处理数据进行计算处理得到当前计算结果并对子网络层组中的当前网络参数进行更新,以得到神经网络模型中每个子网络层组各自的更新后的网络参数;资源利用率高,利于提高模型参数更新效率以及更好地进行功耗优化。
-
公开(公告)号:CN116955365A
公开(公告)日:2023-10-27
申请号:CN202311220007.X
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/22 , G06F16/2457 , G06F16/27 , H04L67/1097 , G06F18/214 , G06N3/084
Abstract: 本发明公开了一种梯度数据同步方法、模型训练方法、系统、设备及介质,涉及分布式集群领域,为解决梯度同步过程中通信效率低的问题,该方法包括:获取网络模型的当前网络层的梯度数据,对梯度数据在分布式训练集群的至少一个加速器节点中进行第一阶段梯度同步对应的第一同步操作,得到当前网络层对应的第一同步结果数据;将当前网络层的第一同步结果数据存储到第一阶段梯度同步结果队列;判断是否对所有网络层的梯度数据均完成第一同步操作;若是,对第一阶段梯度同步结果队列中的第一同步结果数据在分布式训练集群的至少一个加速器节点中进行第二阶段梯度同步对应的第二同步操作。本发明能够减少加速器节点之间的通信次数,提高通信效率。
-
公开(公告)号:CN116450486A
公开(公告)日:2023-07-18
申请号:CN202310714547.7
申请日:2023-06-16
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种多元异构计算系统内节点的建模方法、装置、设备及介质,涉及计算机技术领域。该方法包括:利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据,并从所述测试结果数据中提取出训练数据;所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时;构建所述异构计算节点对应的初始模型,并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型,以便所述异构计算节点模型根据待预测训练任务对应的特征参数,模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。能够低成本并准确地实现算子级别的工作时间线预测。
-
-
-
-
-
-
-
-
-