异构计算平台及其任务仿真与耗时预测方法、装置、设备

    公开(公告)号:CN117971630B

    公开(公告)日:2024-06-28

    申请号:CN202410382408.3

    申请日:2024-04-01

    Abstract: 本发明公开了一种异构计算平台及其任务仿真与耗时预测方法、装置、设备,应用于异构计算领域。其中,方法包括获取异构计算平台采用层间并行方式执行目标任务的任务配置信息;调用预先构建的子任务训练耗时确定模型,根据任务配置信息中的目标任务特征确定各目标算力的子任务训练耗时信息。根据各目标算力的子任务训练耗时信息、任务配置信息中各子任务对应的目标算力及相应处理顺序,对采用层间并行方式执行目标任务的过程进行仿真,最后根据仿真结果确定目标任务的训练耗时预测结果。本发明可以解决相关技术并行训练任务的训练耗时无法精准预测的问题,能够实现精准预测层间并行训练任务的训练耗时。

    基于异构数据的设备分簇方法、装置、设备、系统及介质

    公开(公告)号:CN117806838B

    公开(公告)日:2024-06-04

    申请号:CN202410230125.7

    申请日:2024-02-29

    Abstract: 本发明提供基于异构数据的设备分簇方法、装置、设备、系统及介质,涉及计算机技术领域,首先可将多个边缘设备划分至多个设备簇,以便各边缘设备对机器学习模型进行层级联邦训练;同时,在分簇过程中,本发明可确定各边缘设备本地的机器学习模型对同一测试数据集的推理结果,并可基于该推理结果确定各边缘设备间的训练数据相似度;进而,可利用各训练数据相似度将各边缘设备划分至多个设备簇,即可在分簇过程中考虑数据异构的特点和分布情况,并将拥有相似数据的设备放在同一簇中,从而可提高簇内数据的相似性。这样,在各边缘设备进行层级联邦训练时,可确保相近的机器学习模型参数先聚合,可确保全局模型更快收敛,并可提升联邦学习效率。

    基于分布式系统的网络安全检测方法、系统、设备及介质

    公开(公告)号:CN117811846A

    公开(公告)日:2024-04-02

    申请号:CN202410230120.4

    申请日:2024-02-29

    Abstract: 本发明公开了一种基于分布式系统的网络安全检测方法、系统、设备及介质,涉及网络安全领域,为解决边缘计算设备采用固定大小的本地网络安全检测模型无法发挥最优性能的问题,该方法包括基于本地安全数据训练初始网络安全检测模型;将测试安全数据集输入初始网络安全检测模型后,根据两个输出网络块对应的输出值调整初始网络安全检测模型的神经网络深度得到本地网络安全检测模型;当满足参数更新条件时,利用本地网络安全检测模型的模型参数和关联计算设备的模型参数更新本地网络安全检测模型;通过更新后的本地网络安全检测模型进行本地网络安全检测。本发明能够使边缘计算设备发挥最优的本地网络安全检测性能,减少了通信开销和带宽需求。

    模型部署方法、任务处理方法、装置、设备及存储介质

    公开(公告)号:CN116956756B

    公开(公告)日:2024-02-09

    申请号:CN202311220752.4

    申请日:2023-09-21

    Abstract: 本发明涉及深度学习技术领域,并公开了模型部署方法、任务处理方法、装置、设备及存储介质,通过仿真模拟,计算出每一个分组划分策略下的每个组内并行策略的延迟,基于该延迟则可选出最优设备组划分策略和多个最优组内并行策略,并按照选出的策略进行部署,并记录下模型与设备的映射关系,则可满足延迟要求。又由于模型的部署不是一个模型对应一个设备,而是一个模型并行部署于多个设备之上,且一个设备又对应部署了多个模型。因而,在处理任务时,可以实现同一个模型的任务在多个设备上流水并行处理,不同模型的任务在多个设备上并行处理。即,可以在少量设备上满足延迟要求、提升处(56)对比文件向建军,左继章,白欣.基于多任务并行处理的实时集群计算机系统.系统工程与电子技术.2003,(09),全文.

    分布式集群的通信方法、系统、电子设备及可读存储介质

    公开(公告)号:CN117155929A

    公开(公告)日:2023-12-01

    申请号:CN202311423771.7

    申请日:2023-10-31

    Abstract: 本发明公开了一种分布式集群的通信方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决受网络带宽限制使得集群间通信效率低的问题,该通信方法包括:确定分布式集群中的参数更新节点以及多个子集群;针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;确定获取到的各个阶段的梯度数据的发送次序;按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。本发明能够实现对集群间的网络带宽的充分利用,从而提高通信效率。

    面向异构计算系统的任务分配方法、装置、设备和介质

    公开(公告)号:CN116680060A

    公开(公告)日:2023-09-01

    申请号:CN202310961740.0

    申请日:2023-08-02

    Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的任务分配方法、装置、设备和介质,获取分布式训练任务的训练信息以及每种类型计算节点的耗时信息;训练信息包括模型信息和硬件信息。基于训练信息、耗时信息以及异构计算系统的网络通信信息,确定出各计算节点的负载耗时;根据各计算节点的负载耗时,确定出各计算节点满足节点耗时均衡条件的单次任务量;依据训练信息以及各计算节点的单次任务量,向各计算节点分配对应的训练任务。在负载均衡时考虑了异构计算系统中不同计算节点的计算性能,同时考虑异构计算系统内的网络资源,使负载均衡的效果更优。实现负载均衡仅调整每个计算节点的单次任务量,不影响分布式训练性能。

    一种梯度数据同步方法、系统、装置及介质

    公开(公告)号:CN116663639A

    公开(公告)日:2023-08-29

    申请号:CN202310945008.4

    申请日:2023-07-31

    Abstract: 本申请公开了一种梯度数据同步方法、系统、装置及介质,涉及神经网络技术领域,解决训练效率低以及模型参数陈旧的问题。该方案预先选中M个工作节点,作为触发节点;在每次迭代过程中,若存在Z个触发节点完成梯度数据计算,触发各个工作节点执行梯度数据聚合操作;根据梯度数据聚合操作得到的聚合结果更新神经网络模型的模型参数。可见,只要有Z个触发节点完成了梯度数据计算就触发各个工作节点执行梯度数据聚合,可减少等待所有加速器计算完一个批次的训练数据后才同步更新模型参数所需的时间,避免占用加速器的计算资源。此外,选择M个节点作为触发节点还可以减少模型参数陈旧性的问题,提高训练效率。

Patent Agency Ranking