-
公开(公告)号:CN117971630B
公开(公告)日:2024-06-28
申请号:CN202410382408.3
申请日:2024-04-01
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F11/34 , G06F9/445 , G06F18/214
Abstract: 本发明公开了一种异构计算平台及其任务仿真与耗时预测方法、装置、设备,应用于异构计算领域。其中,方法包括获取异构计算平台采用层间并行方式执行目标任务的任务配置信息;调用预先构建的子任务训练耗时确定模型,根据任务配置信息中的目标任务特征确定各目标算力的子任务训练耗时信息。根据各目标算力的子任务训练耗时信息、任务配置信息中各子任务对应的目标算力及相应处理顺序,对采用层间并行方式执行目标任务的过程进行仿真,最后根据仿真结果确定目标任务的训练耗时预测结果。本发明可以解决相关技术并行训练任务的训练耗时无法精准预测的问题,能够实现精准预测层间并行训练任务的训练耗时。
-
公开(公告)号:CN117806838B
公开(公告)日:2024-06-04
申请号:CN202410230125.7
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/50 , G06F18/22 , G06F18/241 , G06N20/00 , G06N5/04
Abstract: 本发明提供基于异构数据的设备分簇方法、装置、设备、系统及介质,涉及计算机技术领域,首先可将多个边缘设备划分至多个设备簇,以便各边缘设备对机器学习模型进行层级联邦训练;同时,在分簇过程中,本发明可确定各边缘设备本地的机器学习模型对同一测试数据集的推理结果,并可基于该推理结果确定各边缘设备间的训练数据相似度;进而,可利用各训练数据相似度将各边缘设备划分至多个设备簇,即可在分簇过程中考虑数据异构的特点和分布情况,并将拥有相似数据的设备放在同一簇中,从而可提高簇内数据的相似性。这样,在各边缘设备进行层级联邦训练时,可确保相近的机器学习模型参数先聚合,可确保全局模型更快收敛,并可提升联邦学习效率。
-
公开(公告)号:CN117829274B
公开(公告)日:2024-05-24
申请号:CN202410230112.X
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06Q10/04 , G06N3/098 , G06N5/04 , G06V10/764 , G06V10/82
Abstract: 本发明公开了一种模型融合方法、装置、设备、联邦学习系统及存储介质,属于边缘计算领域,用于在簇内聚合与全局聚合时分别确定权重系数进行加权聚合,解决了边缘计算设备的数据异构导致的模型精度受损的问题。一方面由各簇簇头为簇内各边缘计算设备确定设备权重系数,并进行加权聚合,另一方面由中心服务器确定各个簇的簇权重系数,并进行加权聚合,在两次加权聚合时分别参考对应的模型性能进行权重系数的确定,不但可以根据重要性区别调节对于各边缘计算设备的学习率,提升了全局网络模型的精度,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
-
公开(公告)号:CN117808125B
公开(公告)日:2024-05-24
申请号:CN202410230004.2
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种模型聚合方法、装置、设备、联邦学习系统及存储介质,属于边缘计算领域,用于对边缘计算设备中待聚合的模型参数进行筛选,解决了不重要的模型参数传输影响模型训练效率以及模型精度的问题。分别确定本地网络模型的各个模型参数对于本地网络模型性能的第一影响程度以及各个骨干网络层对于本地网络模型性能的第二影响程度,结合第一、第二影响程度对模型参数进行筛选,可剔除对本地网络模型性能影响较小的模型参数,不但降低了数据传输成本,提升了数据传输效率,而且避免了重要程度较低的模型参数对模型精度的影响,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果。
-
公开(公告)号:CN117811846A
公开(公告)日:2024-04-02
申请号:CN202410230120.4
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L9/40 , H04L67/10 , H04L41/142 , G06N3/045 , G06N3/098
Abstract: 本发明公开了一种基于分布式系统的网络安全检测方法、系统、设备及介质,涉及网络安全领域,为解决边缘计算设备采用固定大小的本地网络安全检测模型无法发挥最优性能的问题,该方法包括基于本地安全数据训练初始网络安全检测模型;将测试安全数据集输入初始网络安全检测模型后,根据两个输出网络块对应的输出值调整初始网络安全检测模型的神经网络深度得到本地网络安全检测模型;当满足参数更新条件时,利用本地网络安全检测模型的模型参数和关联计算设备的模型参数更新本地网络安全检测模型;通过更新后的本地网络安全检测模型进行本地网络安全检测。本发明能够使边缘计算设备发挥最优的本地网络安全检测性能,减少了通信开销和带宽需求。
-
公开(公告)号:CN117155791B
公开(公告)日:2024-02-13
申请号:CN202311423735.0
申请日:2023-10-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L41/0894 , H04L41/14 , H04L41/12 , H04L41/0803 , H04L67/10
Abstract: 本发明公开了一种基于集群拓扑结构的模型部署方法、系统、设备及介质,涉及服务器集群领域,为解决跨中央处理器通信影响通信效率的问题,该方法包括基于服务器集群的配置信息生成拓扑结构树;按拓扑结构树确定各个中央处理器节点对应的算力,基于算力获取最优划分部署方案;按最优划分部署方案对预设模型按其网络层进行划分得到多个模型模块,将各个模型模块部署在各个中央处理器节点下的各个设备节点上,以使服务器集群的各个设备节点之间的通信开销最小。本发明能够使得跨中央处理器节点通信的数据量最小,以提升服务器集群中各个带宽
-
公开(公告)号:CN116956756B
公开(公告)日:2024-02-09
申请号:CN202311220752.4
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及深度学习技术领域,并公开了模型部署方法、任务处理方法、装置、设备及存储介质,通过仿真模拟,计算出每一个分组划分策略下的每个组内并行策略的延迟,基于该延迟则可选出最优设备组划分策略和多个最优组内并行策略,并按照选出的策略进行部署,并记录下模型与设备的映射关系,则可满足延迟要求。又由于模型的部署不是一个模型对应一个设备,而是一个模型并行部署于多个设备之上,且一个设备又对应部署了多个模型。因而,在处理任务时,可以实现同一个模型的任务在多个设备上流水并行处理,不同模型的任务在多个设备上并行处理。即,可以在少量设备上满足延迟要求、提升处(56)对比文件向建军,左继章,白欣.基于多任务并行处理的实时集群计算机系统.系统工程与电子技术.2003,(09),全文.
-
公开(公告)号:CN117155929A
公开(公告)日:2023-12-01
申请号:CN202311423771.7
申请日:2023-10-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L67/10 , H04L47/6275
Abstract: 本发明公开了一种分布式集群的通信方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决受网络带宽限制使得集群间通信效率低的问题,该通信方法包括:确定分布式集群中的参数更新节点以及多个子集群;针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;确定获取到的各个阶段的梯度数据的发送次序;按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。本发明能够实现对集群间的网络带宽的充分利用,从而提高通信效率。
-
公开(公告)号:CN116680060A
公开(公告)日:2023-09-01
申请号:CN202310961740.0
申请日:2023-08-02
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的任务分配方法、装置、设备和介质,获取分布式训练任务的训练信息以及每种类型计算节点的耗时信息;训练信息包括模型信息和硬件信息。基于训练信息、耗时信息以及异构计算系统的网络通信信息,确定出各计算节点的负载耗时;根据各计算节点的负载耗时,确定出各计算节点满足节点耗时均衡条件的单次任务量;依据训练信息以及各计算节点的单次任务量,向各计算节点分配对应的训练任务。在负载均衡时考虑了异构计算系统中不同计算节点的计算性能,同时考虑异构计算系统内的网络资源,使负载均衡的效果更优。实现负载均衡仅调整每个计算节点的单次任务量,不影响分布式训练性能。
-
公开(公告)号:CN116663639A
公开(公告)日:2023-08-29
申请号:CN202310945008.4
申请日:2023-07-31
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种梯度数据同步方法、系统、装置及介质,涉及神经网络技术领域,解决训练效率低以及模型参数陈旧的问题。该方案预先选中M个工作节点,作为触发节点;在每次迭代过程中,若存在Z个触发节点完成梯度数据计算,触发各个工作节点执行梯度数据聚合操作;根据梯度数据聚合操作得到的聚合结果更新神经网络模型的模型参数。可见,只要有Z个触发节点完成了梯度数据计算就触发各个工作节点执行梯度数据聚合,可减少等待所有加速器计算完一个批次的训练数据后才同步更新模型参数所需的时间,避免占用加速器的计算资源。此外,选择M个节点作为触发节点还可以减少模型参数陈旧性的问题,提高训练效率。
-
-
-
-
-
-
-
-
-