-
-
公开(公告)号:CN119179935A
公开(公告)日:2024-12-24
申请号:CN202411684885.1
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F18/24 , G06F18/214 , G06F18/40
Abstract: 本说明书公开了一种基于数据质量的数据存储方法、介质及设备。获取初始数据集。针对初始数据集中的每个数据,将该数据分别输入预设的各标注模型,得到每个标注模型针对该数据的标注结果,作为该数据对应的标注集。根据初始数据集中每个数据对应的标注集,在初始数据集中进行数据筛选,以构建出目标数据集。确定预设的计算节点在执行目标模型的模型训练任务时的数据访问信息,以及确定目标数据集中各数据对应的数据特性信息,根据数据访问信息以及目标数据集中包含的各数据对应的数据特性信息,确定计算节点在执行目标模型的模型训练任务时目标数据集中各数据的存储位置,并按照存储位置,将目标数据集作为训练样本进行存储。
-
公开(公告)号:CN118627020B
公开(公告)日:2024-10-29
申请号:CN202411110491.5
申请日:2024-08-14
Applicant: 之江实验室
IPC: G06F18/25 , G06N3/0895 , G06N3/09 , G06N3/0455
Abstract: 本发明公开了一种基于对比学习和结构化信息增强多模态特征融合的方法,基于对比学习的多模态网络,通过利用结构化信息构造的正负样本数据,充分挖掘模态特征之间的对应关系,基于对应关系,注入结构化信息增强模态特征的融合;本发明通过对原始数据集中成对的图片、文本对中的文本数据进行结构化处理,获取文本数据中的对象、对象关系、对象属性等信息构造文本语义负样本和结构知识特征,结构知识特征注入到文本特征中后,在对比学习模块中与文本正样本和图片数据一起进行特征对齐,基于对齐特征送入特征融合模块进行特征融合。本发明充分利用文本模态的结构信息进行特征对齐以及利用融合特征进行联合优化,极大地提升了模型的多模态理解能力。
-
公开(公告)号:CN118502681B
公开(公告)日:2024-10-18
申请号:CN202410975313.2
申请日:2024-07-19
Applicant: 之江实验室
Abstract: 本申请涉及用于存储数据集的方法、系统及用于训练模型的方法。该存储方法包括:获得低速存储设备的平均传输速率;根据训练程序中一次迭代的时间、训练程序的总迭代次数及平均传输速率,获得数据集中用于存储至低速存储设备的低速子集,其中,数据集用于训练模型;以及确定数据集中需要存储在高速存储设备的高速子集,高速子集用于支持训练程序的启动训练。采用本方法能够使高速存储设备和低速存储设备构成的系统的总体成本较低;并能保证有效地支持模型的训练。
-
公开(公告)号:CN118642661A
公开(公告)日:2024-09-13
申请号:CN202411092481.3
申请日:2024-08-09
Applicant: 之江实验室
Abstract: 本发明公开了一种分布式深度学习缓存数据存储的方法和装置,其方法包括:使用细粒度的缓存数据布局方法,充分利用下一周期的随机访问序列指导数据在缓存节点的布局,然后以异步方式动态地将每个样本数据精确迁移到目标缓存节点,并将每个训练进程的数据摄取请求动态调度到目标缓存节点,使得任一时间段内各缓存节点收到的数据摄取请求数目都是相当的,从而保证每个缓存节点上的存储、网络等资源都能充分利用,当模型训练任务提升数据载入的并发度时,缓存数据摄取的并发度也相应提升,显著加快模型训练任务摄取数据的速度。
-
公开(公告)号:CN118394282B
公开(公告)日:2024-08-30
申请号:CN202410849941.6
申请日:2024-06-27
Applicant: 之江实验室
IPC: G06F3/06
Abstract: 本说明书公开了一种数据存储方法、装置、存储介质及电子设备。所述数据存储方法包括:获取各待存储的数据;根据每个数据所占用的存储空间,对各数据进行排序,并基于排序结果确定每个数据对应的数据编号,将存储设备的存储空间划分为若干个簇;针对每个数据,将该数据存储在与该数据所占用存储空间相匹配的块中;针对每个簇,根据该簇中第一个块所存储的数据对应的数据编号、该簇中最后一个块所存储的数据对应的数据编号、第一个块对应的存储地址以及该簇中块的大小,生成该簇的索引信息并存储。通过本方案所提供的数据存储方法可以在数据读取时极大的提高访问效率,进一步提升业务效率。
-
公开(公告)号:CN118035427A
公开(公告)日:2024-05-14
申请号:CN202410448201.1
申请日:2024-04-15
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/38 , G06F16/532 , G06F16/583 , G06F40/126 , G06F40/289 , G06V10/44 , G06V10/74 , G06N3/045
Abstract: 本发明公开了一种通过3D对比学习增强多模态图文检索的方法及装置,基于3D对比学习的多模态网络,通过属性信息监督模态特征之间的交互,充分挖掘模态之间的对应关系,从而能利用模态之间互补的、对齐的信息;在本发明方法中通过对原始数据集中成对的图片、文本对以及对应的属性信息进行特征抽取获得这三个维度的特征,然后送入到3D对比学习模块中,经过充分对比融合、特征对齐,获得视觉模态和文本模态之间的互补信息以及潜在对应关系。本发明通过3D对比学习增强多模态图片文本的检索,能充分利用图片的视觉模态信息、文本模态信息以及它们共享的属性信息这些特征进行联合优化,从而极大地提升了图片文本的检索准确率。
-
公开(公告)号:CN117424827A
公开(公告)日:2024-01-19
申请号:CN202311337191.6
申请日:2023-10-16
Applicant: 之江实验室
IPC: H04L41/16 , H04L67/141 , H04L41/14 , H04L67/1097 , H04L67/146
Abstract: 一种基于分布式深度学习缓存系统的通讯方法和装置,其方法包括:1)初始化应用的软硬件环境:初始化分布式深度学习缓存系统和装置,每个计算节点启动一个服务端管理本地缓存空间;初始化深度学习训练任务,每个节点启动若干客户端;2)客户端与服务端两两建立的网络连接,服务端为每个与其连接的客户端创建一个服务线程;3)在每个训练周期,服务端的每个服务线程只管向网络连接推送样本,客户端自主选择网络连接拉取样本,预处理后发给模型进行训练;4)在用户输入数据上应用模型。本发明能缩短分布式深度学习缓存系统和装置的网络通讯路径,提高网络带宽的利用率。
-
公开(公告)号:CN116501696B
公开(公告)日:2023-09-01
申请号:CN202310790835.0
申请日:2023-06-30
Applicant: 之江实验室
IPC: G06F16/13 , G06F16/172 , G06F16/901 , G06F18/214 , G06N20/00
Abstract: 本发明公开了一种适用于分布式深度学习训练预取缓存管理的方法和装置,包括:深度学习任务初始化时,初始化预取缓存空间;在深度学习训练任务每个轮次训练开始前,生成轮次的洗牌序列,按照该洗牌序列构建缓存索引;在深度学习训练任务进行训练时,根据缓存索引,从预取缓存空间中获取数据,若缓存未命中,则以存储节点为划分依据,到分布式存储中进行批量预取;在预取缓存空间已用容量达到指定阈值时启动缓存淘汰,淘汰掉缓存命中的数据。该方法和装置以存储节点为划分依据进行批量预取,减少了节点之间的通信次数,提高了通信效率,同时,对缓存命中的数据进行淘汰,使得缓存中都是即将命中的数据,提高了缓存命中率。
-
公开(公告)号:CN116136838B
公开(公告)日:2023-07-25
申请号:CN202310420302.3
申请日:2023-04-19
Applicant: 之江实验室
IPC: G06F16/172 , G06F16/11 , G06N20/00
Abstract: 本发明公开了一种深度学习训练数据集快速载入临时缓存方法和装置,该方法用于使用临时缓存对深度学习训练进行加速时,提升数据从远端共享存储载入本地高速存储模块的性能。本发明核心思想是根据共享存储IO特性以及计算节点并发规模,将数据集样本预先组织成合适大小的文件,以解决载入时的元数据热点问题,同时挖掘共享存储的大IO单元优势和高并发访问优势。方法包括三个模块:样本聚合模块,用于在共享存储中把原始样本文件重新组织成适合高速载入的文件;载入模块,用于在训练的初始化阶段把共享存储中经过重新组织的数据集文件加载到临时缓存;样本读取模块,用于在训练过程中从载入临时缓存的数据集中识别并读取训练样本。
-
-
-
-
-
-
-
-
-