数据异构条件下的图像处理方法、联邦学习方法及装置

    公开(公告)号:CN117808127A

    公开(公告)日:2024-04-02

    申请号:CN202410230103.0

    申请日:2024-02-29

    Abstract: 本发明公开了一种数据异构条件下的图像处理方法、联邦学习方法及装置,涉及图像处理技术领域,根据数据分布相似性对边缘计算设备分簇,簇内边缘计算设备具有相似的数据分布,可以让模型更好的捕捉到数据的特征,有效解决数据异构问题。簇内的边缘计算设备根据簇内树形聚合网络进行模型参数聚合,下层的边缘计算设备只向上一层中相应的边缘计算设备发送模型参数,而不向其他边缘计算设备发送模型参数,这样可以极大降低通信开销。边缘计算设备与边缘云服务器在联邦学习过程中进行两层模型参数聚合,得到准确可靠的图像处理模型,最终边缘计算设备使用该准确可靠的图像处理模型进行图像处理,可以提升图像处理的准确性与可靠性。

    一种数据同步方法、装置、设备及存储介质

    公开(公告)号:CN114884908B

    公开(公告)日:2024-02-13

    申请号:CN202210468218.4

    申请日:2022-04-29

    Abstract: 本申请涉及模型训练技术领域,公开了一种数据同步方法、装置、设备及存储介质,包括:在相同种类的加速设备之间构建一级物理拓扑,在不同种类的加速设备之间构建二级物理拓扑;二级物理拓扑中各加速设备通过缓存一致性协议连接;按照一级物理拓扑通过scatter_reduce通信方式对加速设备中的待同步数据进行第一处理,按照二级物理对加速设备中第一处理后的数据进行第二处理;按照二级物理拓扑通过all_gather通信方式对加速设备中第二处理后的数据进行第三处理,并按照一级物理拓扑对加速设备中的第三处理后的数据进行第四处理。能够实现基于多种异构加速设备进行深度学习数据并行,提高硬件资源利用率和数据通信效率。(56)对比文件朱虎明;李佩;焦李成;杨淑媛;侯彪.深度神经网络并行化研究综述.计算机学报.2018,(第08期),全文.

    模型调度方法、装置、计算系统、设备及可读存储介质

    公开(公告)号:CN116980423B

    公开(公告)日:2024-02-09

    申请号:CN202311220749.2

    申请日:2023-09-21

    Abstract: 本发明在深度学习技术领域公开了模型调度方法、装置、计算系统、设备及可读存储介质,该方法包括基于算力优先策略,将模型的网络层映射到计算系统的加速器上,得到调度策略;对特定网络层进行拟重映射,利用加速器的内存,对拟重映射后的调度策略进行通信延迟优化,并获取优化后的系统总延迟;在优化后的系统总延迟低于优化前的系统总延迟的情况下,基于拟重映射,更新重映射后的调度策略;按照重映射后更新的调度策略,对模型进行调度处理。本发明的技术效果:在牺牲较小的计算性能的情况下,获得较大的通信成本的降低,最终提升系统的整体性能,实现计算与通信的均衡,提高了计算和存储资源利用率。

    一种分布式集群的数据处理方法、装置、系统及存储介质

    公开(公告)号:CN116962176B

    公开(公告)日:2024-01-23

    申请号:CN202311221193.9

    申请日:2023-09-21

    Abstract: 本发明公开了一种分布式集群的数据处理方法、装置、系统及存储介质,应用于人工智能技术领域,为解决现有资源利用率差的问题,提出分布式集群包括具有多种加速器节点的多组加速器节点组,每个加速器节点上部署有神经网络模型的一个子网络层组;该方法应用于加速器节点组中任一加速器节点,通过预先将分布式集群中的多个加速器节点进行分组,得到多组加速器节点组,再针对任一加速器节点采用部署于当前加速器节点的子网络层组对当前待处理数据进行计算处理得到当前计算结果并对子网络层组中的当前网络参数进行更新,以得到神经网络模型中每个子网络层组各自的更新后的网络参数;资源利用率高,利于提高模型参数更新效率以及

    通信任务处理方法、系统、设备、集群及可读存储介质

    公开(公告)号:CN117155928A

    公开(公告)日:2023-12-01

    申请号:CN202311423755.8

    申请日:2023-10-31

    Abstract: 本发明公开了一种通信任务处理方法、系统、设备、集群及可读存储介质,涉及分布式集群领域,为解决通信策略浪费节点内带宽的问题,该方法包括根据预设模型在分布式集群的各个设备上的部署策略,确定分布式集群中的发送节点和接收节点;当存在一个或多个通信任务,将各个通信任务一一对应分配给各个发送设备,对通信任务对应的任务数据进行划分得到多个分区数据,控制通信任务对应的发送设备将多个分区数据依次发送至一个接收节点;针对每一接收节点,控制接收节点对其接收到的分区数据在自身节点内的各个设备中进行数据同步,并将分区数据发送给未接收到分区数据的其他接收节点。本发明能够充分利用节点内的带宽,提升分布式集群的资源利用率。

    同步数据并行训练控制方法、系统、装置、设备及介质

    公开(公告)号:CN116702885B

    公开(公告)日:2023-11-07

    申请号:CN202310961731.1

    申请日:2023-08-02

    Abstract: 本发明涉及计算机领域,具体公开了一种同步数据并行训练控制方法、系统、装置、设备及介质,通过在当前次迭代训练中确定各计算节点中的滞后节点,在已完成当前次迭代训练的计算节点中确定对滞后节点的帮算节点,并在帮算节点上分配与滞后节点相同的训练数据进行训练,在得到当前次迭代训练的所有训练数据对应的梯度数据后通知各计算节点结束计算任务并执行梯度数据同步操作,实现了同步数据并行训练,避免对模型引入陈旧性模型参数,保证了模型的收敛速度和精度需求,且能够避免在同步数据并行训练中有计算节点处于空闲状态而有计算节点处于滞后状态的情况下大量拖延迭代训练时间,实现了高训练效率、高模型精度的兼得,充分利用了计算节点资源。

Patent Agency Ranking