-
公开(公告)号:CN116244159B
公开(公告)日:2023-08-11
申请号:CN202310509328.5
申请日:2023-05-08
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种训练时长预测方法、装置、多元异构计算设备及介质,涉及模型训练技术领域,该方法包括:获取待预测计算芯片的模型训练信息;其中,待预测计算芯片为需要完成模型训练任务的计算芯片,模型训练信息包括训练任务特征、计算芯片特征和服务器特征中的至少一项;获取待预测计算芯片对应的目标耗时预测模型;根据模型训练信息,利用目标耗时预测模型计算待预测计算芯片的单步训练时长;本发明能够利用计算芯片所要完成的模型训练任务的特征、计算芯片的动态特征和/或计算芯片所在服务器的动态特征,准确地预测计算芯片在单个训练迭代的计算耗时,提高了对计算芯片的模型训练时长预测的准确性。
-
公开(公告)号:CN119200811B
公开(公告)日:2025-05-06
申请号:CN202411732111.1
申请日:2024-11-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F1/329 , G06F1/3234 , G06N3/04
Abstract: 本发明公开了一种基于能耗的异构计算系统任务处理方法、系统以及产品,涉及计算机技术领域。依据当前训练任务的任务需求参数确定预选异构算力设备,保证当前的训练任务在执行过程中能够顺利完成的前提下确定的预选异构算力设备的数量。选取与预选异构算力设备的数量相同预选存储设备,保证预选异构算力设备与预选存储设备呈现匹配一一对应的关系。基于各预选异构算力设备与各预先存储设备之间的各个组合关系和能耗确定最终能耗,利用能耗优化处理的能耗特征,对各预选异构算力设备与各预选存储设备下的不同组合关系确定的优化处理方式,提高各预选异构算力设备与各预选存储设备的匹配度,降低各预选异构算力设备与各预选存储设备之间的能耗。
-
公开(公告)号:CN119226092B
公开(公告)日:2025-03-21
申请号:CN202411732114.5
申请日:2024-11-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种异构计算系统的检查点部署方法、系统、产品以及装置,涉及计算机技术领域。根据各异构算力设备的需求参数计算在每个存储设备上部署检查点时各存储设备对应的故障恢复耗时期望值,以权衡各异构算力设备的各需求参数对应检查点恢复的影响。根据各异构算力设备的需求参数和故障恢复耗时期望值确定初步的第一检查点部署关系,以实现在部署过程中针对于各异构算力设备的特性参数对应部署检查点到各个存储设备的局部最优选择的可预测性。根据初步的第一检查点部署关系,通过各异构算力设备的部署位置进行优化确定第二检查点部署关系,有效跳出局部最优解增加找到全局最优解的可能性,提高训练任务的执行效率。
-
公开(公告)号:CN119200811A
公开(公告)日:2024-12-27
申请号:CN202411732111.1
申请日:2024-11-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F1/329 , G06F1/3234 , G06N3/04
Abstract: 本发明公开了一种基于能耗的异构计算系统任务处理方法、系统以及产品,涉及计算机技术领域。依据当前训练任务的任务需求参数确定预选异构算力设备,保证当前的训练任务在执行过程中能够顺利完成的前提下确定的预选异构算力设备的数量。选取与预选异构算力设备的数量相同预选存储设备,保证预选异构算力设备与预选存储设备呈现匹配一一对应的关系。基于各预选异构算力设备与各预先存储设备之间的各个组合关系和能耗确定最终能耗,利用能耗优化处理的能耗特征,对各预选异构算力设备与各预选存储设备下的不同组合关系确定的优化处理方式,提高各预选异构算力设备与各预选存储设备的匹配度,降低各预选异构算力设备与各预选存储设备之间的能耗。
-
公开(公告)号:CN117827619B
公开(公告)日:2024-05-24
申请号:CN202410230017.X
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了计算机技术领域内的一种异构算力的耗时预测仿真方法、装置、设备、介质及系统。本发明能够构建包括通信图节点和计算图节点的有向图,从而根据多个异构算力设备的网络拓扑信息仿真得到的仿真网络预测多个通信图节点的通信耗时,根据有向图预测多个计算图节点的计算耗时,累计通信耗时和计算耗时得到模型训练任务的训练耗时。由于无需部署实际的算力设备,因此没有部署难度,实现成本低,可根据预测的训练耗时优化算力设备的部署策略,预测准确度更高,适用于多元异构计算系统。
-
公开(公告)号:CN117827619A
公开(公告)日:2024-04-05
申请号:CN202410230017.X
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了计算机技术领域内的一种异构算力的耗时预测仿真方法、装置、设备、介质及系统。本发明能够构建包括通信图节点和计算图节点的有向图,从而根据多个异构算力设备的网络拓扑信息仿真得到的仿真网络预测多个通信图节点的通信耗时,根据有向图预测多个计算图节点的计算耗时,累计通信耗时和计算耗时得到模型训练任务的训练耗时。由于无需部署实际的算力设备,因此没有部署难度,实现成本低,可根据预测的训练耗时优化算力设备的部署策略,预测准确度更高,适用于多元异构计算系统。
-
公开(公告)号:CN117155929B
公开(公告)日:2024-02-09
申请号:CN202311423771.7
申请日:2023-10-31
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L67/10 , H04L47/6275
Abstract: 本发明公开了一种分布式集群的通信方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决受网络带宽限制使得集群间通信效率低的问题,该通信方法包括:确定分布式集群中的参数更新节点以及多个子集群;针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;确定获取到的各个阶段的梯度数据的发送次序;按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。本发明能够实现对集群间的网络带宽的充分利用,从而提高通信效率。
-
公开(公告)号:CN116955365B
公开(公告)日:2024-02-09
申请号:CN202311220007.X
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F16/22 , G06F16/2457 , G06F16/27 , H04L67/1097 , G06F18/214 , G06N3/084
Abstract: 本发明公开了一种梯度数据同步方法、模型训练方法、系统、设备及介质,涉及分布式集群领域,为解决梯度同步过程中通信效率低的问题,该方法包括:获取网络模型的当前网络层的梯度数据,对梯度数据在分布式训练集群的至少一个加速器节点中进行第一阶段梯度同步对应的第一同步操作,得到当前网络层对应的第一同步结果数据;将当前网络层的第一同步结果数据存储到第一阶段梯度同步结果队列;判断是否对所有网络层的梯度数据均完成第一同步操作;若是,对第一阶段梯度同步结果队列中的第一同步结果数据在分布式训练集群的至少一个加速器节点中进行第二阶段梯度同步对应的第二同步操作。本发明能够减少加速器节点之间的通信次数,提高通信效率。
-
公开(公告)号:CN117349029A
公开(公告)日:2024-01-05
申请号:CN202311640960.X
申请日:2023-12-04
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种异构计算系统、能耗确定方法、装置、电子设备及介质,应用于异构计算领域。其中,系统包括主控制器、至少一个异构计算单元及能耗计算器。主控制器和各异构计算单元通过目标总线相连,并通过目标总线进行通信;能耗计算器在检测到主控制器将待处理任务分配至异构计算单元,根据待处理任务执行过程中的通信操作和计算操作,得到任务执行时序信息;根据任务执行时序信息,分别确定待处理任务过程执行过程中的动态能量消耗、各异构计算单元的静态功耗和通信功耗,从而得到异构计算系统的总能耗。本发明可以解决相关技术无法精准计算异构计算系统的模型计算任务的能耗的问题,可以有效提高异构计算系统的能耗确定精度。
-
公开(公告)号:CN116720544B
公开(公告)日:2023-11-07
申请号:CN202310974618.7
申请日:2023-08-04
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/04 , G06N3/08 , G06F18/214
Abstract: 本发明提供基于异构计算系统的模型训练耗时预测方法、设备及系统,涉及神经网络领域,可根据异构计算系统中包含的各计算设备类型,设置对应的多个简化的子计算系统;随后,可将目标模型及训练数据下发至各子计算系统,并可控制各子计算系统利用该训练数据对目标模型共同进行多轮迭代训练,以对各子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录;进而,本发明可将实际采集到的耗时信息、数据传输量与异构计算系统中的各计算设备间的通信带宽一同输入预设数学模型进行耗时预测,得到异构计算系统训练该目标模型的预测耗时,从而能够解决相关技术无法准确预测异构计算系统训练模型所需耗时的缺陷。
-
-
-
-
-
-
-
-
-