-
公开(公告)号:CN119690687A
公开(公告)日:2025-03-25
申请号:CN202510221607.0
申请日:2025-02-27
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/50 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本申请公开了一种基于异构计算系统的请求分配方法、系统、设备和介质,涉及计算机技术领域,优先考虑键值缓存机制的使用情况下,确定多个异构算力设备访问内存时使用键值缓存所需的读取时间。考虑异构算力设备的算力信息的性能差异、内存扩展对应的内存信息和推理任务信息的特性,合理分配请求。进一步根据预设分配请求数量与并发请求数量之间的比较关系,以及是否满足分配条件的不同策略,提高请求分配的合理性。因此,可以解决在调用分离式内存还是本地内存时对于推理请求的分配均衡性较差,导致算力资源浪费较多的技术问题,达到将推理任务信息合理分配至异构算力设备,以提高分配均衡性的同时,节约算力资源、降低成本的技术效果。
-
公开(公告)号:CN119149210A
公开(公告)日:2024-12-17
申请号:CN202411667145.7
申请日:2024-11-21
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种基于分离式内存系统的内存调度方法、系统以及产品,涉及内存调度技术领域。根据当前任务的需求参数和分离式内存系统的实际运行参数确定当前任务访问的目标内存设备,在实际部署内存设备之前,根据当前任务的执行的需求参数,实现对应不同任务的需求参数与分离式内存系统的实际运行参数初步确定当前任务待访问的目标内存设备。为了减小当前任务对应的访问时延,通过当前任务对应的目标计算加速器的历史调用次数和访问时延预估当前目标内存设备的访问代价,根据访问代价确定当前任务的调度内存设备,使每个任务对应的目标计算加速器访问的调度内存设备的访问代价较小,提高当前任务的目标计算加速器的访问执行效率。
-
公开(公告)号:CN116954873B
公开(公告)日:2024-01-23
申请号:CN202311219994.1
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/48 , G06F9/50 , G06F18/214
Abstract: 本发明公开了一种异构计算系统及其算力节点选择方法、装置、设备、介质,应用于计算机技术领域。其中,方法包括当接收到任务执行请求,根据自定义算力节点参数运行待执行任务;利用异构计算系统的各测试算力节点,并为每个测试算力节点配置不同的测试任务参数执行待执行任务的方式,生成多个部署至异构计算系统的测试任务;基于各测试任务的测试结果和自定义算力节点参数,确定使用计算资源最少时的算力调用方案,并基于算力调用方案对自定义算力节点参数进行相应调整。本发明可以解决相关技术算力节点选择不当的弊端问题,在不增加成本(56)对比文件王可心;邵之江;钱积新.网格环境下复杂过程系统优化计算服务及任务调度策略.系统工程理论与实践.2007,(11),全文.潘佳艺;王芳;杨静怡;谭支鹏.异构Hadoop集群下的负载自适应反馈调度策略.计算机工程与科学.2017,(03),全文.
-
公开(公告)号:CN116680060B
公开(公告)日:2023-11-03
申请号:CN202310961740.0
申请日:2023-08-02
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的任务分配方法、装置、设备和介质,获取分布式训练任务的训练信息以及每种类型计算节点的耗时信息;训练信息包括模型信息和硬件信息。基于训练信息、耗时信息以及异构计算系统的网络通信信息,确定出各计算节点的负载耗时;根据各计算节点的负载耗时,确定出各计算节点满足节点耗时均衡条件的单次任务量;依据训练信息以及各计算节点的单次任务量,向各计算节点分配对应的训练任务。在负载均衡时考虑了异构计算系统中不同计算节点的计算性能,同时考虑异构计算系统内的网络资源,使负载均衡的效果更优。实现负载均衡仅调整每个计算节点的单次任务量,不影响分布式训练性能。
-
公开(公告)号:CN116663639B
公开(公告)日:2023-11-03
申请号:CN202310945008.4
申请日:2023-07-31
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种梯度数据同步方法、系统、装置及介质,涉及神经网络技术领域,解决训练效率低以及模型参数陈旧的问题。该方案预先选中M个工作节点,作为触发节点;在每次迭代过程中,若存在Z个触发节点完成梯度数据计算,触发各个工作节点执行梯度数据聚合操作;根据梯度数据聚合操作得到的聚合结果更新神经网络模型的模型参数。可见,只要有Z个触发节点完成了梯度数据计算就触发各个工作节点执行梯度数据聚合,可减少等待所有加速器计算完一个批次的训练数据后才同步更新模型参数所需的时间,避免占用加速器的计算资源。此外,选择M个节点作为触发节点还可以减少模型参数陈旧性的问题,提高训练效率。
-
公开(公告)号:CN116962438A
公开(公告)日:2023-10-27
申请号:CN202311220016.9
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L67/1095 , H04L41/12 , H04L67/10 , G06F18/214
Abstract: 本发明公开了一种梯度数据同步方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决特定逻辑拓扑的方案无法在随机网络中取得好的数据同步性能的问题,该方法包括:获取分布式训练集群的物理拓扑关系及当前数据同步算法对应的逻辑拓扑关系;将物理拓扑关系中的各物理拓扑节点一一映射到逻辑拓扑关系中的各逻辑拓扑节点,得到至少一个映射拓扑关系;计算当前数据同步算法基于每一映射拓扑关系进行梯度数据同步时的通信开销,将通信开销最小的映射拓扑关系确定为最优映射拓扑关系;基于最优映射拓扑关系和当前数据同步算法进行梯度数据同步。本发明能够提高任意一种随机网络中的梯度数据同步通信的效率,提高网络带宽利用率。
-
公开(公告)号:CN116954873A
公开(公告)日:2023-10-27
申请号:CN202311219994.1
申请日:2023-09-21
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F9/48 , G06F9/50 , G06F18/214
Abstract: 本发明公开了一种异构计算系统及其算力节点选择方法、装置、设备、介质,应用于计算机技术领域。其中,方法包括当接收到任务执行请求,根据自定义算力节点参数运行待执行任务;利用异构计算系统的各测试算力节点,并为每个测试算力节点配置不同的测试任务参数执行待执行任务的方式,生成多个部署至异构计算系统的测试任务;基于各测试任务的测试结果和自定义算力节点参数,确定使用计算资源最少时的算力调用方案,并基于算力调用方案对自定义算力节点参数进行相应调整。本发明可以解决相关技术算力节点选择不当的弊端问题,在不增加成本的基础上,实现异构计算系统中执行任务的算力节点的最优选择,优化异构计算系统的计算资源利用率。
-
公开(公告)号:CN116450486B
公开(公告)日:2023-09-05
申请号:CN202310714547.7
申请日:2023-06-16
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种多元异构计算系统内节点的建模方法、装置、设备及介质,涉及计算机技术领域。该方法包括:利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据,并从所述测试结果数据中提取出训练数据;所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时;构建所述异构计算节点对应的初始模型,并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型,以便所述异构计算节点模型根据待预测训练任务对应的特征参数,模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。能够低成本并准确地实现算子级别的工作时间线预测。
-
公开(公告)号:CN116244159A
公开(公告)日:2023-06-09
申请号:CN202310509328.5
申请日:2023-05-08
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种训练时长预测方法、装置、多元异构计算设备及介质,涉及模型训练技术领域,该方法包括:获取待预测计算芯片的模型训练信息;其中,待预测计算芯片为需要完成模型训练任务的计算芯片,模型训练信息包括训练任务特征、计算芯片特征和服务器特征中的至少一项;获取待预测计算芯片对应的目标耗时预测模型;根据模型训练信息,利用目标耗时预测模型计算待预测计算芯片的单步训练时长;本发明能够利用计算芯片所要完成的模型训练任务的特征、计算芯片的动态特征和/或计算芯片所在服务器的动态特征,准确地预测计算芯片在单个训练迭代的计算耗时,提高了对计算芯片的模型训练时长预测的准确性。
-
公开(公告)号:CN119226092A
公开(公告)日:2024-12-31
申请号:CN202411732114.5
申请日:2024-11-29
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种异构计算系统的检查点部署方法、系统、产品以及装置,涉及计算机技术领域。根据各异构算力设备的需求参数计算在每个存储设备上部署检查点时各存储设备对应的故障恢复耗时期望值,以权衡各异构算力设备的各需求参数对应检查点恢复的影响。根据各异构算力设备的需求参数和故障恢复耗时期望值确定初步的第一检查点部署关系,以实现在部署过程中针对于各异构算力设备的特性参数对应部署检查点到各个存储设备的局部最优选择的可预测性。根据初步的第一检查点部署关系,通过各异构算力设备的部署位置进行优化确定第二检查点部署关系,有效跳出局部最优解增加找到全局最优解的可能性,提高训练任务的执行效率。
-
-
-
-
-
-
-
-
-