一种计算集群温度告警方法、装置、存储介质及电子设备

    公开(公告)号:CN118394607B

    公开(公告)日:2024-09-03

    申请号:CN202410849946.9

    申请日:2024-06-27

    Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

    一种数据访问方法、装置、存储介质及电子设备

    公开(公告)号:CN117312394B

    公开(公告)日:2024-03-05

    申请号:CN202311481292.0

    申请日:2023-11-08

    Abstract: 本说明书公开了一种数据访问方法、装置、存储介质及电子设备,通过第一缓存和第二缓存分别缓存原始样本和处理样本,当接受到模型训练请求后,随机确定一个样本标识,根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时,在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回,经增强计算后确定最终增强样本,用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时,从存储器中获取一个训练样本返回。本方法在保证了训练样本选择的随机性的情况下,提高了缓存命中率,减少CPU冗余计算,并减少了对输入输出接口资源的调用,使得训练过程耗时减少,效率增高。

    一种数据调度方法、装置和计算机设备

    公开(公告)号:CN117032936B

    公开(公告)日:2024-02-06

    申请号:CN202311267177.3

    申请日:2023-09-28

    Abstract: 本申请涉及一种数据调度方法、装置和计算机设备。所述方法包括:对TPU上的数据进行分块,将加载时间和卸载时间均相同的数据划分为同一数据块;基于数据块所对应的加载时间和卸载时间,得到数据调度模型的初始参数;基于每块TPU存储量的大小,得到数据块占用TPU数量的时间分布;根据数据块占用TPU数量的时间分布,计算资源消耗量;利用粒子群优化算法,对初始数据调度模型的参数进行优化训练,直至按照训练后的数据调度模型进行数据调度的资源消耗量,达到按照预设的最少的TPU数量计算得到的资源消耗量时,停止训练,得到完备数据调度模型;基于完备数据调度模型,对TPU上的数据块进行数据调度。采用本方法能够解决计算机的计算

    一种模型训练方法、装置、存储介质及电子设备

    公开(公告)号:CN117909371B

    公开(公告)日:2024-06-28

    申请号:CN202410308246.9

    申请日:2024-03-18

    Abstract: 本说明书公开了一种模型训练方法、装置、存储介质及电子设备。在此方法中,每轮训练时,确定对目标模型执行该轮训练任务时所要使用的训练样本的数据标识,并判断要使用的训练样本的数据标识是否存储在预设的数据列表中,若是,则从预设的缓存中查询该数据标识对应的训练样本,通过获取到的训练样本对目标模型进行训练,否则,根据该数据标识向预设的数据库发送数据获取请求,并通过获取到的训练样本对目标模型进行训练,根据该轮训练时使用的训练样本的使用次数,对预设的数据列表中存储的数据标识进行更新,以根据更新后的数据列表,对预设的缓存中的训练样本进行更新,并通过预设的缓存中更新后的训练样本,对目标模型进行下一轮训练。

    一种训练图像分类模型的系统、方法、装置、介质及设备

    公开(公告)号:CN118570560B

    公开(公告)日:2024-09-27

    申请号:CN202411044024.7

    申请日:2024-07-31

    Abstract: 本说明书公开了一种训练图像分类模型的系统、方法、装置、介质及设备,代理节点通过数据分发模型确定训练数据的分发策略,根据分发策略为各训练节点分发训练数据。各训练节点缓存训练数据,在接收到训练任务时,先从本地缓存中获取执行训练任务所需要的训练数据,当本地缓存中的训练数据不能与执行训练任务所需要的训练数据匹配时,再获取执行训练任务所需要的且未在本地缓存的其他训练数据,从而完成训练任务。各训练节点在执行训练任务时,可确定本地缓存命中率并返回给代理节点。代理节点基于各训练节点的本地缓存命中率调整数据分发模型的参数,从而优化分发策略,以提高训练节点中训练数据的本地缓存命中率,提高图像分类模型的训练效率。

    一种模型训练加速方法、装置及存储介质

    公开(公告)号:CN118468045A

    公开(公告)日:2024-08-09

    申请号:CN202410937902.1

    申请日:2024-07-12

    Abstract: 本说明书公开了一种模型训练加速方法、装置及存储介质,本方法用于在存算分离模式下使用重要性采样方法进行训练的目标模型的训练样本。通过在存储层级预测模型中设置特征重构模块及长短期记忆网络模块,利用特征重构模块,对训练样本被访问信息的特征参数进行特征重构,使得存储层级预测模型充分学习被访问信息的特征。之后,利用长短期记忆网络克服了梯度消失和梯度爆炸的问题。那么,将重构特征输入长短期记忆网络模块,得到预测结果。根据预测结果及标签,对存储层级预测模型进行训练,提高了存储层级预测模型的预测目标模型所需的训练样本的存储层级的准确率,进而提高了上级缓存命中率,加速目标模型训练。

    一种多元异构存储集群管理方法及存储介质

    公开(公告)号:CN119743484A

    公开(公告)日:2025-04-01

    申请号:CN202510244380.1

    申请日:2025-03-03

    Abstract: 本说明书公开了一种多元异构存储集群管理方法及存储介质。在此方法中,可以通过管理设备的全局资源池对多元异构存储集群的所有存储资源进行集中管理和动态分配,以及支持跨不同云计算环境和多个存储集群之间的无缝数据迁移,增强了系统的灵活性和适应性,以使用户可以通过用户界面从创建、分配、使用到回收等方面,进行完整的存储资源生命周期管理,而无需关心底层复杂的硬件配置或网络拓扑结构,进而可以有助于降低运维复杂度,减少人为错误,并显著降低了算力中心在存储运营方面的成本。

    一种模型训练加速方法、装置及存储介质

    公开(公告)号:CN118468045B

    公开(公告)日:2024-09-24

    申请号:CN202410937902.1

    申请日:2024-07-12

    Abstract: 本说明书公开了一种模型训练加速方法、装置及存储介质,本方法用于在存算分离模式下使用重要性采样方法进行训练的目标模型的训练样本。通过在存储层级预测模型中设置特征重构模块及长短期记忆网络模块,利用特征重构模块,对训练样本被访问信息的特征参数进行特征重构,使得存储层级预测模型充分学习被访问信息的特征。之后,利用长短期记忆网络克服了梯度消失和梯度爆炸的问题。那么,将重构特征输入长短期记忆网络模块,得到预测结果。根据预测结果及标签,对存储层级预测模型进行训练,提高了存储层级预测模型的预测目标模型所需的训练样本的存储层级的准确率,进而提高了上级缓存命中率,加速目标模型训练。

Patent Agency Ranking