-
公开(公告)号:CN119960921A
公开(公告)日:2025-05-09
申请号:CN202510446222.4
申请日:2025-04-10
Applicant: 之江实验室
Abstract: 本说明书公开了一种容器服务管理方法及装置。在此方法中,对于新的不可在容器启动过程中载入的服务,可以在其需要载入的时候,根据预设的容器服务查询表,从容器调度平台已有的各容器中确定出同样运行有不可在容器启动过程中载入的服务的目标容器,从而可以将目标容器中运行的服务和新的待载入服务一起载入到新的容器中,并可以在新的容器创建后,将目标容器销毁,以在不影响服务的情况下将目标容器中的服务转移到新的容器,并使得一个容器可以同时进行多个服务,在提升单个容器负载的同时,节省系统资源开销,使得在有限的系统资源上可以运行更多的服务,提升集群资源利用率。
-
公开(公告)号:CN118567791B
公开(公告)日:2024-10-22
申请号:CN202411044021.3
申请日:2024-07-31
Applicant: 之江实验室
Abstract: 本说明书提供的一种缓存方法、装置、存储介质以及电子设备,首先确定执行分布式模型训练任务所需的目标容器,以及,确定目标容器中训练程序执行分布式模型训练任务所需的目标训练数据集的路径信息,将路径信息与预设的缓存表中包含的各路径信息进行匹配,以判断目标训练数据集是否被缓存,若是,则从缓存表中确定出缓存目标训练数据集的计算节点的节点信息,以从缓存目标训练数据集的计算节点中获取目标训练数据集,并通过目标容器执行分布式模型训练任务,若否,则根据路径信息,从云端获取目标训练数据集,以通过获取的目标训练数据集,执行分布式模型训练任务。
-
公开(公告)号:CN118378726B
公开(公告)日:2024-09-20
申请号:CN202410830397.0
申请日:2024-06-25
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。
-
公开(公告)号:CN118394607B
公开(公告)日:2024-09-03
申请号:CN202410849946.9
申请日:2024-06-27
Applicant: 之江实验室
Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。
-
公开(公告)号:CN118378726A
公开(公告)日:2024-07-23
申请号:CN202410830397.0
申请日:2024-06-25
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。
-
公开(公告)号:CN116976463A
公开(公告)日:2023-10-31
申请号:CN202310880317.8
申请日:2023-07-18
Applicant: 之江实验室
IPC: G06N20/00 , G06F18/214
Abstract: 本发明公开了一种用于提升深度学习训练性能的数据交换方法及系统,包括:S1:数据载入,对共享存储中的所有训练样本编号,根据当前训练轮次生成随机的训练序列;节点包括:GPU、CPU、本地存储、存储引擎;第一轮的训练样本按照训练序列载入对应节点的本地存储中;S2:判断当前轮次是否为最后一轮,若是,执行S3;若否,执行S4;S3:每个节点的GPU使用本地存储的训练样本,按照训练序列进行当前轮次的深度学习训练;S4:GPU按照训练序列进行当前轮次的训练,同时CPU将本轮次已训练的训练样本和其他节点进行数据交换,完成后重复执行S2。本发明在训练过程中,将训练样本交换到其下个轮次所属的节点,避免在训练时的跨节点访问。
-
公开(公告)号:CN115470931A
公开(公告)日:2022-12-13
申请号:CN202211079412.X
申请日:2022-09-05
Applicant: 之江实验室
Abstract: 本发明公开一种适用于深度学习训练的IO加速系统及数据存储方法,该系统和方法在训练任务开始前,制备与轮次训练对应的副本;副本以对应轮次训练的随机序列为顺序、依据存储设备的特性存在存储设备中,使得按照该随机序列读取所述副本数据时,符合存储设备的顺序访问特性;每个轮次训练均从对应的副本中读取数据。本发明的方法将训练过程中对存储设备的随机IO转换为顺序IO,能够充分利用硬盘等顺序存储设备的性能。
-
公开(公告)号:CN118690209B
公开(公告)日:2025-01-28
申请号:CN202411168953.9
申请日:2024-08-23
Applicant: 之江实验室
IPC: G06F18/22 , G06F18/25 , G06F18/214 , G06F18/241 , G06N3/098
Abstract: 本说明书公开了一种分布式模型训练、业务执行方法、存储介质及设备,可以获取预设的本地分类模型对各本地训练数据进行分类后所输出的每种分类结果对应的特征表示原型,将每种分类结果对应的特征表示原型以及本地分类模型的模型参数发送给中心服务器,以使中心服务器根据各下游设备发送的特征表示原型,确定每种分类结果对应的整体特征表示原型,以及,将各下游设备发送的模型参数融合,得到融合模型参数,进而可以通过对比学习的方式,根据中心服务器确定出的每种分类结果对应的整体特征表示原型,对本地分类模型进行训练,以提升联邦学习的训练效果。
-
公开(公告)号:CN118313429B
公开(公告)日:2024-10-11
申请号:CN202410763197.8
申请日:2024-06-13
Applicant: 之江实验室
Abstract: 本申请涉及一种模型训练显存优化方法、装置、电子装置和存储介质,其中,该模型训练显存优化方法包括:获取模型原始参数,将模型原始参数进行备份,得到备份参数;根据模型结构确定候选暂退的模型连接;对候选暂退的模型连接不分配显存,并为除候选暂退的模型连接之外的其他模型连接分配显存;执行循环训练过程直至达到预设的训练终止条件,得到目标训练模型;循环训练过程包括:根据预设的暂退比例,对候选暂退的模型连接进行随机暂退后,得到目标连接;根据目标连接,从备份参数中复制参数进行半精度训练,得到半精度参数梯度;根据半精度参数梯度更新备份参数,提高了模型训练中显存的利用率和训练速度。
-
公开(公告)号:CN118690209A
公开(公告)日:2024-09-24
申请号:CN202411168953.9
申请日:2024-08-23
Applicant: 之江实验室
IPC: G06F18/22 , G06F18/25 , G06F18/214 , G06F18/241 , G06N3/098
Abstract: 本说明书公开了一种分布式模型训练、业务执行方法、存储介质及设备,可以获取预设的本地分类模型对各本地训练数据进行分类后所输出的每种分类结果对应的特征表示原型,将每种分类结果对应的特征表示原型以及本地分类模型的模型参数发送给中心服务器,以使中心服务器根据各下游设备发送的特征表示原型,确定每种分类结果对应的整体特征表示原型,以及,将各下游设备发送的模型参数融合,得到融合模型参数,进而可以通过对比学习的方式,根据中心服务器确定出的每种分类结果对应的整体特征表示原型,对本地分类模型进行训练,以提升联邦学习的训练效果。
-
-
-
-
-
-
-
-
-