一种计算集群温度告警方法、装置、存储介质及电子设备

    公开(公告)号:CN118394607B

    公开(公告)日:2024-09-03

    申请号:CN202410849946.9

    申请日:2024-06-27

    Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

    一种模型训练系统、方法、存储介质及电子设备

    公开(公告)号:CN118378726A

    公开(公告)日:2024-07-23

    申请号:CN202410830397.0

    申请日:2024-06-25

    Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。

    一种用于提升深度学习训练性能的数据交换方法及系统

    公开(公告)号:CN116976463A

    公开(公告)日:2023-10-31

    申请号:CN202310880317.8

    申请日:2023-07-18

    Abstract: 本发明公开了一种用于提升深度学习训练性能的数据交换方法及系统,包括:S1:数据载入,对共享存储中的所有训练样本编号,根据当前训练轮次生成随机的训练序列;节点包括:GPU、CPU、本地存储、存储引擎;第一轮的训练样本按照训练序列载入对应节点的本地存储中;S2:判断当前轮次是否为最后一轮,若是,执行S3;若否,执行S4;S3:每个节点的GPU使用本地存储的训练样本,按照训练序列进行当前轮次的深度学习训练;S4:GPU按照训练序列进行当前轮次的训练,同时CPU将本轮次已训练的训练样本和其他节点进行数据交换,完成后重复执行S2。本发明在训练过程中,将训练样本交换到其下个轮次所属的节点,避免在训练时的跨节点访问。

    一种超算中心间的大文件分片传输方法和传输架构

    公开(公告)号:CN115242782B

    公开(公告)日:2023-01-03

    申请号:CN202211148476.0

    申请日:2022-09-21

    Abstract: 本发明涉及超级计算机的资源管理技术领域,公开一种超算中心间的大文件分片传输方法和传输架构,该方法包括:步骤一,收集超算中心间传包的文件数据,对其中作为发送方的超算中心进行初始化工作;步骤二,完成初始化工作后,发送方的超算中心获取初始状态,利用强化学习算法,动态调整文件数据的分片大小,后根据分片大小进行文件数据分片后传输给接收方的超算中心;步骤三,接收方的超算中心根据其接收状态,发送传输反馈给发送方的超算中心;步骤四,更新并判断剩余的文件数据的大小,以此判断文件数据是否传输完毕,若未传输完毕,则重复步骤二至步骤四,直至整个文件数据传输完成。本发明可以有效降低系统资源的浪费,提升整体的系统效率。

    一种适用于深度学习训练的IO加速系统及数据存储方法

    公开(公告)号:CN115470931A

    公开(公告)日:2022-12-13

    申请号:CN202211079412.X

    申请日:2022-09-05

    Abstract: 本发明公开一种适用于深度学习训练的IO加速系统及数据存储方法,该系统和方法在训练任务开始前,制备与轮次训练对应的副本;副本以对应轮次训练的随机序列为顺序、依据存储设备的特性存在存储设备中,使得按照该随机序列读取所述副本数据时,符合存储设备的顺序访问特性;每个轮次训练均从对应的副本中读取数据。本发明的方法将训练过程中对存储设备的随机IO转换为顺序IO,能够充分利用硬盘等顺序存储设备的性能。

Patent Agency Ranking