基于分离式内存系统的内存调度方法、系统以及产品

    公开(公告)号:CN119149210A

    公开(公告)日:2024-12-17

    申请号:CN202411667145.7

    申请日:2024-11-21

    Abstract: 本发明公开了一种基于分离式内存系统的内存调度方法、系统以及产品,涉及内存调度技术领域。根据当前任务的需求参数和分离式内存系统的实际运行参数确定当前任务访问的目标内存设备,在实际部署内存设备之前,根据当前任务的执行的需求参数,实现对应不同任务的需求参数与分离式内存系统的实际运行参数初步确定当前任务待访问的目标内存设备。为了减小当前任务对应的访问时延,通过当前任务对应的目标计算加速器的历史调用次数和访问时延预估当前目标内存设备的访问代价,根据访问代价确定当前任务的调度内存设备,使每个任务对应的目标计算加速器访问的调度内存设备的访问代价较小,提高当前任务的目标计算加速器的访问执行效率。

    机器学习方法、装置、设备、联邦学习系统及存储介质

    公开(公告)号:CN117808126B

    公开(公告)日:2024-05-28

    申请号:CN202410230008.0

    申请日:2024-02-29

    Abstract: 本发明公开了一种机器学习方法、装置、设备、联邦学习系统及存储介质,属于边缘计算领域,用于在模型聚合过程中识别并剔除恶意用户的模型数据,解决了恶意用户攻击导致模型精度下降的问题。一方面边缘计算设备可以在簇内选择与自身的相关性达标的边缘计算设备的模型参数对自身的模型参数进行更新,另一方面簇头在进行簇内聚合时可以排除异常的边缘计算设备的模型参数,通过两层的风险识别,可以精准的识别并忽略异常的模型参数,排除了风险,有利于提升最终得到的全局网络模型的性能,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果,也避免了全局网络模型学习到恶意用户希望的特定行为。

    机器学习方法、装置、设备、联邦学习系统及存储介质

    公开(公告)号:CN117808126A

    公开(公告)日:2024-04-02

    申请号:CN202410230008.0

    申请日:2024-02-29

    Abstract: 本发明公开了一种机器学习方法、装置、设备、联邦学习系统及存储介质,属于边缘计算领域,用于在模型聚合过程中识别并剔除恶意用户的模型数据,解决了恶意用户攻击导致模型精度下降的问题。一方面边缘计算设备可以在簇内选择与自身的相关性达标的边缘计算设备的模型参数对自身的模型参数进行更新,另一方面簇头在进行簇内聚合时可以排除异常的边缘计算设备的模型参数,通过两层的风险识别,可以精准的识别并忽略异常的模型参数,排除了风险,有利于提升最终得到的全局网络模型的性能,使中心服务器在工业设备故障预测、网络安全问题识别与图片分类时发挥最优的效果,也避免了全局网络模型学习到恶意用户希望的特定行为。

    异构计算系统及其算力节点选择方法、装置、设备、介质

    公开(公告)号:CN116954873B

    公开(公告)日:2024-01-23

    申请号:CN202311219994.1

    申请日:2023-09-21

    Abstract: 本发明公开了一种异构计算系统及其算力节点选择方法、装置、设备、介质,应用于计算机技术领域。其中,方法包括当接收到任务执行请求,根据自定义算力节点参数运行待执行任务;利用异构计算系统的各测试算力节点,并为每个测试算力节点配置不同的测试任务参数执行待执行任务的方式,生成多个部署至异构计算系统的测试任务;基于各测试任务的测试结果和自定义算力节点参数,确定使用计算资源最少时的算力调用方案,并基于算力调用方案对自定义算力节点参数进行相应调整。本发明可以解决相关技术算力节点选择不当的弊端问题,在不增加成本(56)对比文件王可心;邵之江;钱积新.网格环境下复杂过程系统优化计算服务及任务调度策略.系统工程理论与实践.2007,(11),全文.潘佳艺;王芳;杨静怡;谭支鹏.异构Hadoop集群下的负载自适应反馈调度策略.计算机工程与科学.2017,(03),全文.

    面向异构计算系统的任务分配方法、装置、设备和介质

    公开(公告)号:CN116680060B

    公开(公告)日:2023-11-03

    申请号:CN202310961740.0

    申请日:2023-08-02

    Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的任务分配方法、装置、设备和介质,获取分布式训练任务的训练信息以及每种类型计算节点的耗时信息;训练信息包括模型信息和硬件信息。基于训练信息、耗时信息以及异构计算系统的网络通信信息,确定出各计算节点的负载耗时;根据各计算节点的负载耗时,确定出各计算节点满足节点耗时均衡条件的单次任务量;依据训练信息以及各计算节点的单次任务量,向各计算节点分配对应的训练任务。在负载均衡时考虑了异构计算系统中不同计算节点的计算性能,同时考虑异构计算系统内的网络资源,使负载均衡的效果更优。实现负载均衡仅调整每个计算节点的单次任务量,不影响分布式训练性能。

    一种梯度数据同步方法、系统、装置及介质

    公开(公告)号:CN116663639B

    公开(公告)日:2023-11-03

    申请号:CN202310945008.4

    申请日:2023-07-31

    Abstract: 本申请公开了一种梯度数据同步方法、系统、装置及介质,涉及神经网络技术领域,解决训练效率低以及模型参数陈旧的问题。该方案预先选中M个工作节点,作为触发节点;在每次迭代过程中,若存在Z个触发节点完成梯度数据计算,触发各个工作节点执行梯度数据聚合操作;根据梯度数据聚合操作得到的聚合结果更新神经网络模型的模型参数。可见,只要有Z个触发节点完成了梯度数据计算就触发各个工作节点执行梯度数据聚合,可减少等待所有加速器计算完一个批次的训练数据后才同步更新模型参数所需的时间,避免占用加速器的计算资源。此外,选择M个节点作为触发节点还可以减少模型参数陈旧性的问题,提高训练效率。

    一种梯度数据同步方法、系统、电子设备及可读存储介质

    公开(公告)号:CN116962438A

    公开(公告)日:2023-10-27

    申请号:CN202311220016.9

    申请日:2023-09-21

    Abstract: 本发明公开了一种梯度数据同步方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决特定逻辑拓扑的方案无法在随机网络中取得好的数据同步性能的问题,该方法包括:获取分布式训练集群的物理拓扑关系及当前数据同步算法对应的逻辑拓扑关系;将物理拓扑关系中的各物理拓扑节点一一映射到逻辑拓扑关系中的各逻辑拓扑节点,得到至少一个映射拓扑关系;计算当前数据同步算法基于每一映射拓扑关系进行梯度数据同步时的通信开销,将通信开销最小的映射拓扑关系确定为最优映射拓扑关系;基于最优映射拓扑关系和当前数据同步算法进行梯度数据同步。本发明能够提高任意一种随机网络中的梯度数据同步通信的效率,提高网络带宽利用率。

    异构计算系统及其算力节点选择方法、装置、设备、介质

    公开(公告)号:CN116954873A

    公开(公告)日:2023-10-27

    申请号:CN202311219994.1

    申请日:2023-09-21

    Abstract: 本发明公开了一种异构计算系统及其算力节点选择方法、装置、设备、介质,应用于计算机技术领域。其中,方法包括当接收到任务执行请求,根据自定义算力节点参数运行待执行任务;利用异构计算系统的各测试算力节点,并为每个测试算力节点配置不同的测试任务参数执行待执行任务的方式,生成多个部署至异构计算系统的测试任务;基于各测试任务的测试结果和自定义算力节点参数,确定使用计算资源最少时的算力调用方案,并基于算力调用方案对自定义算力节点参数进行相应调整。本发明可以解决相关技术算力节点选择不当的弊端问题,在不增加成本的基础上,实现异构计算系统中执行任务的算力节点的最优选择,优化异构计算系统的计算资源利用率。

    多元异构计算系统内节点的建模方法、装置、设备及介质

    公开(公告)号:CN116450486B

    公开(公告)日:2023-09-05

    申请号:CN202310714547.7

    申请日:2023-06-16

    Abstract: 本申请公开了一种多元异构计算系统内节点的建模方法、装置、设备及介质,涉及计算机技术领域。该方法包括:利用测试数据对多元异构计算系统内的异构计算节点进行性能测试得到测试结果数据,并从所述测试结果数据中提取出训练数据;所述训练数据包括训练任务特征、算子特征和计算算子的计算耗时;构建所述异构计算节点对应的初始模型,并利用所述训练数据对所述初始模型进行训练以得到对应的异构计算节点模型,以便所述异构计算节点模型根据待预测训练任务对应的特征参数,模拟异构计算节点运行所述待预测训练任务时的算子级的训练时间线。能够低成本并准确地实现算子级别的工作时间线预测。

    一种梯度数据同步方法及装置

    公开(公告)号:CN116090551B

    公开(公告)日:2023-07-14

    申请号:CN202310202801.5

    申请日:2023-03-06

    Abstract: 本申请公开了一种梯度数据同步方法及装置,涉及深度学习技术领域,包括:比较训练平台的第一个维度上的带宽与第二个维度上的带宽的大小;若带宽比较结果满足预设条件,则比较所述第一个维度上的负载与所述第二个维度上的负载的大小;根据负载比较结果,确定待聚合数据的调度顺序;根据所述调度顺序对所述待聚合数据块执行分层Allreduce操作,得到梯度数据同步结果。该方法能够提高分层Allreduce的整体宽带利用率,提高梯度数据的同步效率。

Patent Agency Ranking