-
公开(公告)号:CN120012508A
公开(公告)日:2025-05-16
申请号:CN202510114440.8
申请日:2025-01-24
Applicant: 中国科学院计算机网络信息中心
Abstract: 本申请提供一种基于八叉树的计算节点负载均衡方法和装置,包括将计算区域划分为多个子区域,对计算区域进行递归划分,得到计算区域对应的八叉树结构,根据八叉树结构,依次将叶节点分配到不同的计算节点上,使得各计算节点的负载值均衡,随着模拟仿真进程,重新计算叶节点的负载值,根据叶节点的负载值,重新分配叶节点到计算节点上,使得计算节点的负载值重新均衡。本发明基于计算负载评估结果,对负载不均衡的进程进行八叉树网格划分,主要在相邻背景网格的进程之间进行调整,优化各计算节点的负载分布,并有利于计算过程中相邻子区域的数据传输。
-
公开(公告)号:CN119376977B
公开(公告)日:2025-04-15
申请号:CN202411436342.8
申请日:2024-10-15
Applicant: 中国科学院计算机网络信息中心
IPC: G06F9/54 , G06N3/098 , G06N3/0455
Abstract: 本公开涉及深度学习大规模模型并行训练通信优化,具体涉及一种基于有损压缩的大规模并行通信优化方法,包括:将原始数据划分为N×N个块数据;各个进程非阻塞接收来自上一个进程的块数据,同时基于SZX算法压缩本进程上一轮接收到的块数据,再非阻塞发送所述压缩后的块数据至下一个进程,同时解压缩接收到的块数据并进行规约操作,直至每个进程持有规约子块结果;每个进程以环形的方式并行通信,直至每个进程都持有所有进程压缩后的规约子块结果;各个进程开始对接收到的所有压缩后的规约子块结果进行解压缩并存储数据。该方法降低了大模型张量并行训练中的通信开销,实现发送和接收与压缩和解压缩时间开销的相互掩蔽,节约了时间成本。
-
公开(公告)号:CN119417693A
公开(公告)日:2025-02-11
申请号:CN202411476492.1
申请日:2024-10-22
Applicant: 中国科学院计算机网络信息中心
IPC: G06T1/20 , G06N3/042 , G06N3/0464
Abstract: 本申请公开了一种用于GPU的图神经网络加速训练方法、存储介质及电子装置,所述方法包括:获取初始图,并将初始图分割为N个子图,其中初始图为动态图样本中对应一个时刻的静态图;预估子图的计算负荷,基于子图的计算负荷将N个子图分配至M个GPU上并进行图神经网络的训练,其中每个GPU上至少被分配2个子图;获取增量数据,并基于增量数据对子图进行更新,其中所述增量数据用于表征当前时刻扫描的动态图样本中的静态图相对于GPU当前处理的静态图的变化;将所述N个含有增量数据的子图分配至M个GPU上并进行图神经网络的训练。本技术确保了计算与资源利用率提升,降低了训练耗时,提高了图神经网络在训练时的训练效率。
-
公开(公告)号:CN119127525A
公开(公告)日:2024-12-13
申请号:CN202411144012.1
申请日:2024-08-20
Applicant: 中国科学院计算机网络信息中心
Abstract: 一种大模型并行训练通信优化方法,应用于多个计算设备组成的系统,每个计算设备配置有GPU,GPU包含至少一个进程,进程用于大模型并行训练中的一个任务分区,方法用于对ZeRO数据的ZeRO‑1阶段的优化,该方法包括:执行模型的向前计算以及反向计算,确定梯度信息;基于梯度信息,更新本地优化器状态中的动量;通过1‑bit Allreduce通信对更新后的动量进行处理,并更新压缩过程中产生的误差;利用聚合后的动量以及方差,更新每个计算设备上存储的模型参数分区。本方法可以降低通信开销,提高并行训练的效率。
-
公开(公告)号:CN117155925A
公开(公告)日:2023-12-01
申请号:CN202210573743.2
申请日:2022-05-24
Applicant: 中国科学院计算机网络信息中心
IPC: H04L67/10 , H04L67/025 , H04L67/146 , H04L67/30 , H04L67/54 , H04L9/40
Abstract: 本发明涉及计算资源远程访问技术领域,具体涉及一种分布式计算资源远程访问方法与系统,其整体架构由客户端层、SSH网关和计算集群层构成,客户端层通过外网与SSH网关连接,计算集群层通过内网与SSH网关连接;客户端层包括多个客户端,且各个客户端内均设有浏览器、SSH终端;SSH网关包括WEB服务模块、SSH跳板服务模块、缓存服务模块;计算集群层由物理集群和虚拟集群构成,物理集群内包括多个物理机,虚拟集群内包括多个虚拟机,物理机及虚拟机内分别设有SSHD登录节点;本发明满足分布式环境下安全高效地访问远程计算资源,提升客户端访问远程计算集群的便利性,便于对整个流程进行统一的管理。
-
公开(公告)号:CN111814398B
公开(公告)日:2023-09-29
申请号:CN202010653007.9
申请日:2020-07-08
Applicant: 国网河北省电力有限公司 , 国家电网有限公司 , 中国科学院计算机网络信息中心 , 天津弘源慧能科技有限公司
IPC: G06F30/27 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F111/08
Abstract: 本发明涉及一种基于图的融合时空注意力的地表太阳辐射度预测方法,该方法包括以下步骤:选择覆盖实测站点的SWR子网格来构建图,气象网格点和地面辐射度实测站点作为图的结点;使用空间嵌入和时间嵌入来表示图结构和时间信息;使用融合时空的注意力机制学习图中结点间的动态关系联性;在编码器encoder和解码器decoder中间加入变换注意力模块,通过时空嵌入来建模历史和未来的关系;将实测站点的结点特征作为解码器decoder的输入来进行太阳辐射度预测。本发明充分考虑了时空相关性,能够更准确的预测辐射度。
-
公开(公告)号:CN115797169A
公开(公告)日:2023-03-14
申请号:CN202211410670.1
申请日:2022-11-11
Applicant: 国网河北省电力有限公司 , 中国科学院计算机网络信息中心 , 天津弘源慧能科技有限公司
Abstract: 本申请提供了一种图像预处理方法、图像预处理装置、电子设备和计算机可读存储介质。方法包括:获取连续拍摄的多个原始图像;计算多个原始图像中每个原始图像的时间相关属性的数值;根据数值的不同,从原始图像中截取不同尺寸的输入图像;将输入图像输入预测模型。根据本申请,通过简单的方式实现准确可靠的图像尺寸调整,能够帮助预测模型实现高效准确的预测效果。
-
公开(公告)号:CN114743072B
公开(公告)日:2023-01-31
申请号:CN202210571113.1
申请日:2022-05-24
Applicant: 中国科学院计算机网络信息中心
IPC: G06V10/774 , G06V10/80 , G06F18/25 , G06F18/214 , G06N20/00
Abstract: 本发明涉及一种短期时间序列预测模型的训练方法,方法包括:输入具有不同特征的带有时间属性的历史图像数据;使用双流时空运动特性识别方法对所述图像数据进行特征提取,得到不同图像数据的特征;将不同图像数据的特征进行张量拼接,得到多种因子图像特征矩阵;将历史目标实测数据、历史理想外源辅助数据与历史实际外源辅助数据的差值、以及多种因子图像特征矩阵进行拼接,得到第一样本数据;以未来目标实测数据作为第一标签数据,使用Transformer预测出第一预测数据,将所述第一预测数据与所述第一标签数据使用损失函数计算第一预测损失,并向使所述第一预测损失减小的方向进行迭代训练,得到训练完成的模型。
-
公开(公告)号:CN115392081A
公开(公告)日:2022-11-25
申请号:CN202211012953.0
申请日:2022-08-23
Applicant: 杭州电子科技大学 , 中国科学院计算机网络信息中心
IPC: G06F30/23 , G06F30/28 , G06F111/10 , G06F113/08 , G06F119/14
Abstract: 本发明公开了一种基于FETI的高精细流致振动模拟方法,首先读入相应的算例数据,并采用NewMark方法对流致振动动力学过程进行数值离散。其次采用FETI方法对离散后的方程进行并行分解,子域在划分边界处由拉格朗日乘子进行粘合,提出域边界平衡的图二分算法,均衡各子域中的单元量和计算量,保证进程间负载均衡。最后采用预处理共轭梯度法进行迭代求解,迭代求解得到,根据得到相应的位移,根据位移,NewMark方法实现流致振动过程的时间步更新。本发明完成了数亿规模的网格数据求解,提高了求解大规模流致振动问题的效率,实现了流致振动的快速高效模拟,并且保证了进程间的负载均衡。
-
公开(公告)号:CN111476373B
公开(公告)日:2022-04-22
申请号:CN202010286466.8
申请日:2020-04-13
Applicant: 中国科学院计算机网络信息中心
IPC: G06N20/00 , G06F16/9032
Abstract: 本发明涉及一种人工智能数据服务系统,包括前端交互平台和人工智能数据平台;其特征在于,前端交互平台包括:数据检索服务模块,用于用户通过输入关键字或者根据数据领域划分来快速的检索并定位到自己所需的数据;所述数据包括数据集、API接口、数据模型;数据集服务模块,用于提供数据集的在线使用和下载功能,用户可以通过检索服务模块定位到所需数据集,通过数据集中的数据试用来进行在线的数据模型训练,也可通过申请将原始数据或者训练所产生的数据通过平台下载到本地;数据接口服务模块,用于用户申请获取密钥然后再进行参数填写加传递的形式来在线获取对应的数据;模型/算力服务模块,用于用户进行在线的便捷式的模型训练。
-
-
-
-
-
-
-
-
-