基于异构计算系统的模型训练耗时预测方法、设备及系统

    公开(公告)号:CN116720544A

    公开(公告)日:2023-09-08

    申请号:CN202310974618.7

    申请日:2023-08-04

    Abstract: 本发明提供基于异构计算系统的模型训练耗时预测方法、设备及系统,涉及神经网络领域,可根据异构计算系统中包含的各计算设备类型,设置对应的多个简化的子计算系统;随后,可将目标模型及训练数据下发至各子计算系统,并可控制各子计算系统利用该训练数据对目标模型共同进行多轮迭代训练,以对各子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录;进而,本发明可将实际采集到的耗时信息、数据传输量与异构计算系统中的各计算设备间的通信带宽一同输入预设数学模型进行耗时预测,得到异构计算系统训练该目标模型的预测耗时,从而能够解决相关技术无法准确预测异构计算系统训练模型所需耗时的缺陷。

    面向异构计算系统的故障节点切换方法、装置和设备

    公开(公告)号:CN116701043A

    公开(公告)日:2023-09-05

    申请号:CN202310974735.3

    申请日:2023-08-04

    Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的故障节点切换方法、装置和设备,当检测到存活信息异常的故障节点时,收集网络带宽信息;根据存活信息和任务运行状态,确定出可用计算节点。依据各可用计算节点的参数量、计算耗时以及网络带宽信息,确定出各可用计算节点部署故障节点的分布式训练后的迭代耗时。基于迭代耗时、峰值算力以及平均耗时,从各可用计算节点中选取出替换节点,保证了在尽量不浪费计算资源并且尽量不影响计算效率的同时,选择出最优的替换节点;将故障节点所对应的训练模型和参数下发至替换节点,向替换节点部署故障节点所属的通信环和环连接顺序,使得替换节点代替故障节点工作,保证了训练任务的继续运行。

    一种异构内存池并发访问方法、装置、设备及存储介质

    公开(公告)号:CN116700995A

    公开(公告)日:2023-09-05

    申请号:CN202310967987.3

    申请日:2023-08-03

    Abstract: 本发明公开了一种异构内存池并发访问方法、装置、设备及存储介质,涉及内存访问技术领域。该方法包括:获取数据处理模型相关的输入数据,并对所述输入数据进行拆分得到对应的数据块;将所述数据处理模型相关的模型参数存储至动态随机存取内存,并将所述数据块存储至持久性内存;根据所述持久性内存中每个所述输入数据以及所述输入数据对应的数据块,构建二层索引;获取至少两个数据处理任务的读取请求,根据所述读取请求和所述二层索引并行访问所述持久性内存,以从所述持久性内存中读取目标数据块至所述动态随机存取内存,以便根据所述目标数据块和所述模型参数执行数据处理。能够高效的利用异构内存,提升内存的并发访存效率。

    一种多元异构算力设备调度方法、装置、设备及存储介质

    公开(公告)号:CN116700934A

    公开(公告)日:2023-09-05

    申请号:CN202310974724.5

    申请日:2023-08-04

    Abstract: 本发明公开了一种多元异构算力设备调度方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取多元异构算力设备对应的算子级算力表;所述算子级算力表用于表征算子在不同类型的算力设备上的性能高低;根据所述算子级算力表通过两级聚簇方式将数据处理模型相关的算子部署到相应的算力设备上,以得到数据处理模型与多元异构设备的映射关系;根据所述数据处理模型与多元异构设备的映射关系进行多元异构算力设备调度。能够最大限度的利用各底层硬件资源,能够有效提升高通量数据处理模型的处理效率,提升数据处理的性能。

    一种梯度数据的同步方法、系统、设备及存储介质

    公开(公告)号:CN115665174A

    公开(公告)日:2023-01-31

    申请号:CN202211592818.8

    申请日:2022-12-13

    Abstract: 本申请公开了一种梯度数据的同步方法、系统、设备及存储介质,应用于机器学习技术领域,包括:获取1个批次的训练样本并进行本地深度学习模型的训练,得到本地参数梯度;当自身在未组队状态下接收组队请求时将自身设置为组队状态;按照预设规则从邻居节点集合中选取出1个邻居节点,判断选取出的邻居节点当前是否处于组队状态;如果否,则与其组队;如果是,则重新选取;在将自身设置为组队状态之后,与组队节点进行梯度数据的同步,同步之后将自身恢复为未组队状态,并返回执行训练操作,直至模型训练结束。应用本申请的方案,可以有效地实现去中心化的梯度数据同步,同时降低了通信开销,提高了方案的应用范围。

    模型并行训练任务负载均衡方法、装置、设备及存储介质

    公开(公告)号:CN111752713A

    公开(公告)日:2020-10-09

    申请号:CN202010597645.3

    申请日:2020-06-28

    Abstract: 本发明公开了一种模型并行训练任务负载均衡方法,包括:获取目标模型中各个网络层的数据通信量和理论计算量;确定各个计算设备的理论算力,并根据理论算力和理论计算量得到各个计算设备对应的初始计算量;根据初始计算量,采用多种设备临界层位置划分规则进行负载均衡操作,得到多个初始均衡方案;统计初始均衡方案对应的时间性能参数,并根据时间性能参数在初始均衡方案中确定中间均衡方案;根据数据通信量对中间均衡方案进行调整,得到最终均衡方案;该方法通过理论算力得到初始均衡方案,选择中间方案并进行调整,可以使各个计算设备的负载均衡,提高效率;此外,本发明还提供了一种装置、设备及计算机可读存储介质,也具有上述有益效果。

Patent Agency Ranking