-
公开(公告)号:CN118377436A
公开(公告)日:2024-07-23
申请号:CN202410821445.X
申请日:2024-06-24
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型数据的管理方法、装置、存储介质及电子设备。所述模型数据的管理方法包括:获取待存储的模型数据,并按照预设的数据页存储空间,将模型数据划分为若干个第一数据页;基于当前时刻生成的密钥,对每个第一数据页进行加密,得到各加密数据页,并根据各加密数据页生成的散列值对密钥进行加密,得到密钥数据页;构建包含各加密数据页和密钥数据页的数据条,并进行冗余编码,得到至少两个冗余数据页;将数据条中的各数据页和各冗余数据页写入存储设备,并对存储设备中存储的数据进行读取、恢复、更新、删除等数据管理。本方案有效避免了数据泄露以及损坏的风险,提高了数据的安全性。
-
公开(公告)号:CN118313429A
公开(公告)日:2024-07-09
申请号:CN202410763197.8
申请日:2024-06-13
Applicant: 之江实验室
Abstract: 本申请涉及一种模型训练显存优化方法、装置、电子装置和存储介质,其中,该模型训练显存优化方法包括:获取模型原始参数,将模型原始参数进行备份,得到备份参数;根据模型结构确定候选暂退的模型连接;对候选暂退的模型连接不分配显存,并为除候选暂退的模型连接之外的其他模型连接分配显存;执行循环训练过程直至达到预设的训练终止条件,得到目标训练模型;循环训练过程包括:根据预设的暂退比例,对候选暂退的模型连接进行随机暂退后,得到目标连接;根据目标连接,从备份参数中复制参数进行半精度训练,得到半精度参数梯度;根据半精度参数梯度更新备份参数,提高了模型训练中显存的利用率和训练速度。
-
公开(公告)号:CN119179935B
公开(公告)日:2025-02-11
申请号:CN202411684885.1
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F18/24 , G06F18/214 , G06F18/40
Abstract: 本说明书公开了一种基于数据质量的数据存储方法、介质及设备。获取初始数据集。针对初始数据集中的每个数据,将该数据分别输入预设的各标注模型,得到每个标注模型针对该数据的标注结果,作为该数据对应的标注集。根据初始数据集中每个数据对应的标注集,在初始数据集中进行数据筛选,以构建出目标数据集。确定预设的计算节点在执行目标模型的模型训练任务时的数据访问信息,以及确定目标数据集中各数据对应的数据特性信息,根据数据访问信息以及目标数据集中包含的各数据对应的数据特性信息,确定计算节点在执行目标模型的模型训练任务时目标数据集中各数据的存储位置,并按照存储位置,将目标数据集作为训练样本进行存储。
-
公开(公告)号:CN119179581A
公开(公告)日:2024-12-24
申请号:CN202411684883.2
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F9/50 , G06F16/182 , G06F3/06 , G06N3/0499 , G06N3/084
Abstract: 本说明书公开了一种存储资源调度方法、装置、存储介质及电子设备,可以通过预先构建的包含有多级分层的数据存储系统,执行针对目标模型的训练任务,并在执行针对目标模型的训练任务的过程中,可以基于预先确定的不同训练样本的数据质量参数,以及目标模型在不同的训练周期的不同的状态参数下对数据质量不同的训练样本数据的需求,对设置于不同分层中的不同异构存储资源进行调度管理,以提升水平方向的数据存取效率,从而可以从横纵两方面全面提升数据的存取效率,进而可以提升模型的训练效率。
-
-
公开(公告)号:CN118642661B
公开(公告)日:2024-11-08
申请号:CN202411092481.3
申请日:2024-08-09
Applicant: 之江实验室
Abstract: 本发明公开了一种分布式深度学习缓存数据存储的方法和装置,其方法包括:使用细粒度的缓存数据布局方法,充分利用下一周期的随机访问序列指导数据在缓存节点的布局,然后以异步方式动态地将每个样本数据精确迁移到目标缓存节点,并将每个训练进程的数据摄取请求动态调度到目标缓存节点,使得任一时间段内各缓存节点收到的数据摄取请求数目都是相当的,从而保证每个缓存节点上的存储、网络等资源都能充分利用,当模型训练任务提升数据载入的并发度时,缓存数据摄取的并发度也相应提升,显著加快模型训练任务摄取数据的速度。
-
公开(公告)号:CN118567791A
公开(公告)日:2024-08-30
申请号:CN202411044021.3
申请日:2024-07-31
Applicant: 之江实验室
Abstract: 本说明书提供的一种缓存方法、装置、存储介质以及电子设备,首先确定执行分布式模型训练任务所需的目标容器,以及,确定目标容器中训练程序执行分布式模型训练任务所需的目标训练数据集的路径信息,将路径信息与预设的缓存表中包含的各路径信息进行匹配,以判断目标训练数据集是否被缓存,若是,则从缓存表中确定出缓存目标训练数据集的计算节点的节点信息,以从缓存目标训练数据集的计算节点中获取目标训练数据集,并通过目标容器执行分布式模型训练任务,若否,则根据路径信息,从云端获取目标训练数据集,以通过获取的目标训练数据集,执行分布式模型训练任务。
-
公开(公告)号:CN118502681A
公开(公告)日:2024-08-16
申请号:CN202410975313.2
申请日:2024-07-19
Applicant: 之江实验室
Abstract: 本申请涉及用于存储数据集的方法、系统及用于训练模型的方法。该存储方法包括:获得低速存储设备的平均传输速率;根据训练程序中一次迭代的时间、训练程序的总迭代次数及平均传输速率,获得数据集中用于存储至低速存储设备的低速子集,其中,数据集用于训练模型;以及确定数据集中需要存储在高速存储设备的高速子集,高速子集用于支持训练程序的启动训练。采用本方法能够使高速存储设备和低速存储设备构成的系统的总体成本较低;并能保证有效地支持模型的训练。
-
公开(公告)号:CN118394282A
公开(公告)日:2024-07-26
申请号:CN202410849941.6
申请日:2024-06-27
Applicant: 之江实验室
IPC: G06F3/06
Abstract: 本说明书公开了一种数据存储方法、装置、存储介质及电子设备。所述数据存储方法包括:获取各待存储的数据;根据每个数据所占用的存储空间,对各数据进行排序,并基于排序结果确定每个数据对应的数据编号,将存储设备的存储空间划分为若干个簇;针对每个数据,将该数据存储在与该数据所占用存储空间相匹配的块中;针对每个簇,根据该簇中第一个块所存储的数据对应的数据编号、该簇中最后一个块所存储的数据对应的数据编号、第一个块对应的存储地址以及该簇中块的大小,生成该簇的索引信息并存储。通过本方案所提供的数据存储方法可以在数据读取时极大的提高访问效率,进一步提升业务效率。
-
公开(公告)号:CN118379605A
公开(公告)日:2024-07-23
申请号:CN202410821436.0
申请日:2024-06-24
Applicant: 之江实验室
IPC: G06V10/96 , G06V10/94 , G06V10/82 , G06V10/44 , G06V10/764 , G06N3/0455 , G06N3/0464 , G06N3/0495 , G06N3/096
Abstract: 本说明书公开了一种图像识别大模型的部署方法、装置及存储介质,本方法应用于边端实时决策场景的所述图像识别大模型包括自编码器及分类器,先将能耗消耗较高的自编码器部署在异构存算一体芯片的模拟架构核中,将所述分类器部署在异构存算一体芯片的数字架构核中,以降低能耗。通过获取样本图像,将所述样本图像输入所述自编码器中,得到所述自编码器输出的样本图像特征。根据所述样本图像特征,对部署在所述数字架构核中的分类器进行训练,提高图像识别大模型的精度。也就是说,通过将能耗较高的自编码器部署在能耗消耗较低的模拟架构核中,降低能耗,对部署在数字架构核的分类器进行训练,提高图像识别大模型的精度。
-
-
-
-
-
-
-
-
-