-
公开(公告)号:CN116521380A
公开(公告)日:2023-08-01
申请号:CN202310819041.2
申请日:2023-07-05
Applicant: 之江实验室
Abstract: 本说明书公开了一种资源自适应协同的模型训练加速方法、装置及设备。所述方法包括:获取不同计算单元对应的计算精度信息以及计算资源信息,基于的计算精度信息以及计算资源信息,生成各资源调用策略;在获取到目标模型的模型数据后,针对目标模型的每个训练阶段,确定该训练阶段所需的目标计算精度以及目标计算资源;确定满足各训练阶段的计算精度需求和计算资源需求的各资源调用策略,作为各候选调用策略;按照指定评估条件在各候选调用策略中选取出目标调用策略;根据目标调用策略调用各计算单元对应的计算资源,以执行目标模型每个训练阶段的训练任务。
-
公开(公告)号:CN116204387B
公开(公告)日:2023-07-21
申请号:CN202310461391.6
申请日:2023-04-26
Applicant: 之江实验室
Abstract: 本说明书公开了一种芯片电流的预测方法、装置、介质及电子设备,采用可解释人工智能技术,获取芯片中的任务负载状态以及指令集,该任务负载状态包括运算单元任务负载状态和缓存单元任务负载状态。将该芯片的任务负载状态输入到第一回归模型,以使第一回归模型确定该芯片维持该任务负载状态的所需电流。并将该指令集输入第二回归模型,以使第二回归模型确定该芯片执行该指令集中的指令后的电流变化值。根据该芯片维持该任务负载状态的所需电流以及该芯片执行该指令集中包含的指令后的电流变化值,以确定该芯片的增量电流。实现了对芯片维持作业的电流的预测,且因为第一回归模型与第二回归模型具备可解释性,提高了预测电流作业的可靠性及可控性。
-
公开(公告)号:CN116185307B
公开(公告)日:2023-07-04
申请号:CN202310448220.X
申请日:2023-04-24
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型数据的存储方法、装置、存储介质及电子设备。所述模型数据的存储方法包括:接收模型数据的存储请求并获取模型数据,确定所述模型数据的属性信息,根据所述属性信息,确定所述模型数据对应的存储位置,若所述存储位置位于所述AI加速器的本地存储单元,则确定与所述属性信息相匹配的压缩方式,作为目标压缩方式,通过所述目标压缩方式对所述模型数据进行压缩,并将压缩后的模型数据存储在所述本地存储单元中的所述存储位置,以及若所述存储位置位于所述AI加速器的远端存储单元,则将所述模型数据存储在所述远端存储单元中的所述存储位置。
-
公开(公告)号:CN118378726B
公开(公告)日:2024-09-20
申请号:CN202410830397.0
申请日:2024-06-25
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。
-
公开(公告)号:CN118394607B
公开(公告)日:2024-09-03
申请号:CN202410849946.9
申请日:2024-06-27
Applicant: 之江实验室
Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。
-
公开(公告)号:CN118396140A
公开(公告)日:2024-07-26
申请号:CN202410849948.8
申请日:2024-06-27
Applicant: 之江实验室
IPC: G06N20/20
Abstract: 本说明书公开了一种分布式模型训练系统及方法,第二计算节点基于适应度函数确定各树型结构模型的当前适应度,选择目标树型结构模型,第一计算节点选择参考树型结构模型,根据参考树型结构模型和目标树型结构模型,生成进化操作执行任务,将其分配给各第二计算节点,使其执行各进化操作执行任务,得到更新后的树型结构模型,第一计算节点从各更新后的树型结构模型中确定各选中的树型结构模型,并以此构建当前待训练模型,迭代多次直到满足第一预设条件,得到训练完成的目标模型。可见,上述方案实现了基于大型计算集群的分布式训练的适配,解决了大型树型模型占用计算资源高的问题,提升了大型树型模型的训练效率。
-
公开(公告)号:CN118378726A
公开(公告)日:2024-07-23
申请号:CN202410830397.0
申请日:2024-06-25
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练系统、方法、存储介质及电子设备,可以通过前向梯度传播的方式,即,在前向传播过程中,针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值,计算该网络层的梯度值,并基于该网络层的梯度值对该网络层的模型参数进行调整,从而可以使得在通过中央处理器确定每层网络层的模型参数后,即可将上一层网络层的输出值以及该网络层的梯度值删除,进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。
-
公开(公告)号:CN117370536A
公开(公告)日:2024-01-09
申请号:CN202311673949.3
申请日:2023-12-07
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/33 , G06N3/0464 , G06N3/08
Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备。可以将用户输入的指定文本输入到预先训练的语言模型中,以通过语言模型确定指定文本对应的文本特征表示,并可以确定每个候选问题文本特征表示与文本特征表示之间的相关度,以根据相关度,从各候选问题文本特征表示中确定出与文本特征表示相匹配的候选问题文本特征表示,作为目标问题文本特征表示,并根据目标问题文本特征表示与所述文本特征表示之间的相关度是否低于预设的相关度阈值,确定是否向用户请求补充文本信息,以及是否将预先确定的目标问题文本特征表示对应的回复文本,作为指定文本对应的目标回复文本回复给用户。
-
公开(公告)号:CN116661574B
公开(公告)日:2023-12-12
申请号:CN202310860078.X
申请日:2023-07-13
Applicant: 之江实验室
IPC: G06F1/20 , G06F18/214
Abstract: 本说明书公开了一种计算设备散热的方法、装置、存储介质及电子设备,本方法通过确定各时刻的计算设备的芯片的特征以及计算设备的散热单元中冷却介质的特征确定训练样本,并获取散热单元的控制指令作为训练样本的标注,然后针对每个特征维度,根据该维度的特征对训练样本进行排序以确定该维度的样本序列,再确定标注相同且连续的各训练样本组成的待选样本组,并确定包含训练样本数量不小于预设数量的待选样本组作为目标样本组,根据各目标样本组以及各目标样本组对应的标注确定控制规则,进一步对计算设备进行散热控制。本方法通过对历史上控制指令、芯片特征以及散热单元中冷却介质的特征的学习生成控制规则,使计算设备可以
-
公开(公告)号:CN117130693A
公开(公告)日:2023-11-28
申请号:CN202311397785.6
申请日:2023-10-26
Applicant: 之江实验室
Abstract: 本申请涉及一种张量卸载方法、装置、计算机设备及存储介质。所述方法包括:获取张量特征信息,所述张量特征信息包括待训练模型每层的显存容量需求、计算间隔以及计算延迟信息;基于预设卸载策略和所述显存容量需求确定显存约束条件,基于所述预设卸载策略和计算间隔确定卸载时间约束条件,所述预设卸载策略包括主存卸载和重计算卸载;基于所述显存约束条件和卸载时间约束条件筛选所述预设卸载策略,确定多个候选卸载策略;基于所述计算延迟信息确定每个候选卸载策略的额外计算延迟,基于所述额外计算延迟确定目标卸载策略,并基于所述目标卸载策略卸载张量。本申请在对模型训练精度影响较小或无影响的情况下,通过张量卸载来增加显存的有效容量。
-
-
-
-
-
-
-
-
-