一种基于八叉树的计算节点负载均衡方法和装置

    公开(公告)号:CN120012508A

    公开(公告)日:2025-05-16

    申请号:CN202510114440.8

    申请日:2025-01-24

    Abstract: 本申请提供一种基于八叉树的计算节点负载均衡方法和装置,包括将计算区域划分为多个子区域,对计算区域进行递归划分,得到计算区域对应的八叉树结构,根据八叉树结构,依次将叶节点分配到不同的计算节点上,使得各计算节点的负载值均衡,随着模拟仿真进程,重新计算叶节点的负载值,根据叶节点的负载值,重新分配叶节点到计算节点上,使得计算节点的负载值重新均衡。本发明基于计算负载评估结果,对负载不均衡的进程进行八叉树网格划分,主要在相邻背景网格的进程之间进行调整,优化各计算节点的负载分布,并有利于计算过程中相邻子区域的数据传输。

    一种基于有损压缩的大规模并行通信优化方法

    公开(公告)号:CN119376977B

    公开(公告)日:2025-04-15

    申请号:CN202411436342.8

    申请日:2024-10-15

    Abstract: 本公开涉及深度学习大规模模型并行训练通信优化,具体涉及一种基于有损压缩的大规模并行通信优化方法,包括:将原始数据划分为N×N个块数据;各个进程非阻塞接收来自上一个进程的块数据,同时基于SZX算法压缩本进程上一轮接收到的块数据,再非阻塞发送所述压缩后的块数据至下一个进程,同时解压缩接收到的块数据并进行规约操作,直至每个进程持有规约子块结果;每个进程以环形的方式并行通信,直至每个进程都持有所有进程压缩后的规约子块结果;各个进程开始对接收到的所有压缩后的规约子块结果进行解压缩并存储数据。该方法降低了大模型张量并行训练中的通信开销,实现发送和接收与压缩和解压缩时间开销的相互掩蔽,节约了时间成本。

    用于GPU的图神经网络加速训练方法、存储介质及电子装置

    公开(公告)号:CN119417693A

    公开(公告)日:2025-02-11

    申请号:CN202411476492.1

    申请日:2024-10-22

    Abstract: 本申请公开了一种用于GPU的图神经网络加速训练方法、存储介质及电子装置,所述方法包括:获取初始图,并将初始图分割为N个子图,其中初始图为动态图样本中对应一个时刻的静态图;预估子图的计算负荷,基于子图的计算负荷将N个子图分配至M个GPU上并进行图神经网络的训练,其中每个GPU上至少被分配2个子图;获取增量数据,并基于增量数据对子图进行更新,其中所述增量数据用于表征当前时刻扫描的动态图样本中的静态图相对于GPU当前处理的静态图的变化;将所述N个含有增量数据的子图分配至M个GPU上并进行图神经网络的训练。本技术确保了计算与资源利用率提升,降低了训练耗时,提高了图神经网络在训练时的训练效率。

    一种大模型并行训练通信优化方法及装置

    公开(公告)号:CN119127525A

    公开(公告)日:2024-12-13

    申请号:CN202411144012.1

    申请日:2024-08-20

    Abstract: 一种大模型并行训练通信优化方法,应用于多个计算设备组成的系统,每个计算设备配置有GPU,GPU包含至少一个进程,进程用于大模型并行训练中的一个任务分区,方法用于对ZeRO数据的ZeRO‑1阶段的优化,该方法包括:执行模型的向前计算以及反向计算,确定梯度信息;基于梯度信息,更新本地优化器状态中的动量;通过1‑bit Allreduce通信对更新后的动量进行处理,并更新压缩过程中产生的误差;利用聚合后的动量以及方差,更新每个计算设备上存储的模型参数分区。本方法可以降低通信开销,提高并行训练的效率。

    分布式计算资源远程访问方法与系统

    公开(公告)号:CN117155925A

    公开(公告)日:2023-12-01

    申请号:CN202210573743.2

    申请日:2022-05-24

    Abstract: 本发明涉及计算资源远程访问技术领域,具体涉及一种分布式计算资源远程访问方法与系统,其整体架构由客户端层、SSH网关和计算集群层构成,客户端层通过外网与SSH网关连接,计算集群层通过内网与SSH网关连接;客户端层包括多个客户端,且各个客户端内均设有浏览器、SSH终端;SSH网关包括WEB服务模块、SSH跳板服务模块、缓存服务模块;计算集群层由物理集群和虚拟集群构成,物理集群内包括多个物理机,虚拟集群内包括多个虚拟机,物理机及虚拟机内分别设有SSHD登录节点;本发明满足分布式环境下安全高效地访问远程计算资源,提升客户端访问远程计算集群的便利性,便于对整个流程进行统一的管理。

    一种短期时间序列预测模型的训练方法

    公开(公告)号:CN114743072B

    公开(公告)日:2023-01-31

    申请号:CN202210571113.1

    申请日:2022-05-24

    Abstract: 本发明涉及一种短期时间序列预测模型的训练方法,方法包括:输入具有不同特征的带有时间属性的历史图像数据;使用双流时空运动特性识别方法对所述图像数据进行特征提取,得到不同图像数据的特征;将不同图像数据的特征进行张量拼接,得到多种因子图像特征矩阵;将历史目标实测数据、历史理想外源辅助数据与历史实际外源辅助数据的差值、以及多种因子图像特征矩阵进行拼接,得到第一样本数据;以未来目标实测数据作为第一标签数据,使用Transformer预测出第一预测数据,将所述第一预测数据与所述第一标签数据使用损失函数计算第一预测损失,并向使所述第一预测损失减小的方向进行迭代训练,得到训练完成的模型。

    一种人工智能数据服务系统

    公开(公告)号:CN111476373B

    公开(公告)日:2022-04-22

    申请号:CN202010286466.8

    申请日:2020-04-13

    Abstract: 本发明涉及一种人工智能数据服务系统,包括前端交互平台和人工智能数据平台;其特征在于,前端交互平台包括:数据检索服务模块,用于用户通过输入关键字或者根据数据领域划分来快速的检索并定位到自己所需的数据;所述数据包括数据集、API接口、数据模型;数据集服务模块,用于提供数据集的在线使用和下载功能,用户可以通过检索服务模块定位到所需数据集,通过数据集中的数据试用来进行在线的数据模型训练,也可通过申请将原始数据或者训练所产生的数据通过平台下载到本地;数据接口服务模块,用于用户申请获取密钥然后再进行参数填写加传递的形式来在线获取对应的数据;模型/算力服务模块,用于用户进行在线的便捷式的模型训练。

Patent Agency Ranking