一种容器服务管理方法及装置
    1.
    发明公开

    公开(公告)号:CN119960921A

    公开(公告)日:2025-05-09

    申请号:CN202510446222.4

    申请日:2025-04-10

    Inventor: 梅飞 曾令仿

    Abstract: 本说明书公开了一种容器服务管理方法及装置。在此方法中,对于新的不可在容器启动过程中载入的服务,可以在其需要载入的时候,根据预设的容器服务查询表,从容器调度平台已有的各容器中确定出同样运行有不可在容器启动过程中载入的服务的目标容器,从而可以将目标容器中运行的服务和新的待载入服务一起载入到新的容器中,并可以在新的容器创建后,将目标容器销毁,以在不影响服务的情况下将目标容器中的服务转移到新的容器,并使得一个容器可以同时进行多个服务,在提升单个容器负载的同时,节省系统资源开销,使得在有限的系统资源上可以运行更多的服务,提升集群资源利用率。

    一种缓存方法、装置、存储介质以及电子设备

    公开(公告)号:CN118567791B

    公开(公告)日:2024-10-22

    申请号:CN202411044021.3

    申请日:2024-07-31

    Abstract: 本说明书提供的一种缓存方法、装置、存储介质以及电子设备,首先确定执行分布式模型训练任务所需的目标容器,以及,确定目标容器中训练程序执行分布式模型训练任务所需的目标训练数据集的路径信息,将路径信息与预设的缓存表中包含的各路径信息进行匹配,以判断目标训练数据集是否被缓存,若是,则从缓存表中确定出缓存目标训练数据集的计算节点的节点信息,以从缓存目标训练数据集的计算节点中获取目标训练数据集,并通过目标容器执行分布式模型训练任务,若否,则根据路径信息,从云端获取目标训练数据集,以通过获取的目标训练数据集,执行分布式模型训练任务。

    一种模型训练系统、方法、存储介质及电子设备

    公开(公告)号:CN118378726B

    公开(公告)日:2024-09-20

    申请号:CN202410830397.0

    申请日:2024-06-25

    Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。

    一种计算集群温度告警方法、装置、存储介质及电子设备

    公开(公告)号:CN118394607B

    公开(公告)日:2024-09-03

    申请号:CN202410849946.9

    申请日:2024-06-27

    Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

    一种分布式模型训练系统及方法

    公开(公告)号:CN118396140A

    公开(公告)日:2024-07-26

    申请号:CN202410849948.8

    申请日:2024-06-27

    Abstract: 本说明书公开了一种分布式模型训练系统及方法,第二计算节点基于适应度函数确定各树型结构模型的当前适应度,选择目标树型结构模型,第一计算节点选择参考树型结构模型,根据参考树型结构模型和目标树型结构模型,生成进化操作执行任务,将其分配给各第二计算节点,使其执行各进化操作执行任务,得到更新后的树型结构模型,第一计算节点从各更新后的树型结构模型中确定各选中的树型结构模型,并以此构建当前待训练模型,迭代多次直到满足第一预设条件,得到训练完成的目标模型。可见,上述方案实现了基于大型计算集群的分布式训练的适配,解决了大型树型模型占用计算资源高的问题,提升了大型树型模型的训练效率。

    一种模型训练系统、方法、存储介质及电子设备

    公开(公告)号:CN118378726A

    公开(公告)日:2024-07-23

    申请号:CN202410830397.0

    申请日:2024-06-25

    Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。

    一种固态盘存储系统的选择性数据压缩方法及装置

    公开(公告)号:CN117666968B

    公开(公告)日:2024-06-28

    申请号:CN202311759362.4

    申请日:2023-12-20

    Abstract: 本发明公开了一种固态盘存储系统的选择性数据压缩方法及装置,该方法是在固态盘存储系统上设置压缩位图表和三个功能模块:负载监测模块、数据压缩模块和数据解压缩模块,由请求类型判断步骤、数据的压缩写入步骤和数据的解压缩读取步骤组成。根据系统的当前负载和CPU计算资源状态,该方法充分利用存储系统中数据的冗余特性和固态盘的闪存介质特性,通过利用动态的数据压缩技术减少冗余信息,减少写入数据量,以此缓解固态盘读写性能不对称的问题,同时提升固态盘的空间利用率和可靠性。

    神经网络训练方法、显存调度方法、系统、设备和产品

    公开(公告)号:CN117892769B

    公开(公告)日:2024-06-11

    申请号:CN202410296736.1

    申请日:2024-03-15

    Abstract: 本申请涉及一种神经网络训练方法、显存调度方法、系统、设备和产品,通过对第一神经网络在训练过程中的多个张量执行显存调度,记录各张量在显存调度期间对应的显存信息和重用距离,显存信息包括对应于各张量的显存占用量、显存利用率以及适用于各张量的显存释放模式;以各张量的显存占用量、显存利用率和重用距离作为样本数据的输入,以适用于各张量的显存释放模式作为样本数据的输出,构建训练数据集;根据训练数据集训练初始的第二神经网络,得到经训练的第二神经网络,经训练的第二神经网络可作为线上显存优化的决策引擎,使得决策引擎能够适用于多GPU训练场景的显存调度。

    一种数据访问方法、装置、存储介质及电子设备

    公开(公告)号:CN117312394B

    公开(公告)日:2024-03-05

    申请号:CN202311481292.0

    申请日:2023-11-08

    Abstract: 本说明书公开了一种数据访问方法、装置、存储介质及电子设备,通过第一缓存和第二缓存分别缓存原始样本和处理样本,当接受到模型训练请求后,随机确定一个样本标识,根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时,在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回,经增强计算后确定最终增强样本,用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时,从存储器中获取一个训练样本返回。本方法在保证了训练样本选择的随机性的情况下,提高了缓存命中率,减少CPU冗余计算,并减少了对输入输出接口资源的调用,使得训练过程耗时减少,效率增高。

Patent Agency Ranking