-
公开(公告)号:CN112379849B
公开(公告)日:2021-04-09
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
公开(公告)号:CN112379849A
公开(公告)日:2021-02-19
申请号:CN202110062697.5
申请日:2021-01-18
Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。
-
公开(公告)号:CN112306697A
公开(公告)日:2021-02-02
申请号:CN202011619848.4
申请日:2020-12-31
Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。
-
公开(公告)号:CN114968588B
公开(公告)日:2025-02-28
申请号:CN202210632036.6
申请日:2022-06-07
Applicant: 之江实验室
Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。
-
公开(公告)号:CN119179935B
公开(公告)日:2025-02-11
申请号:CN202411684885.1
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F18/24 , G06F18/214 , G06F18/40
Abstract: 本说明书公开了一种基于数据质量的数据存储方法、介质及设备。获取初始数据集。针对初始数据集中的每个数据,将该数据分别输入预设的各标注模型,得到每个标注模型针对该数据的标注结果,作为该数据对应的标注集。根据初始数据集中每个数据对应的标注集,在初始数据集中进行数据筛选,以构建出目标数据集。确定预设的计算节点在执行目标模型的模型训练任务时的数据访问信息,以及确定目标数据集中各数据对应的数据特性信息,根据数据访问信息以及目标数据集中包含的各数据对应的数据特性信息,确定计算节点在执行目标模型的模型训练任务时目标数据集中各数据的存储位置,并按照存储位置,将目标数据集作为训练样本进行存储。
-
公开(公告)号:CN119336510A
公开(公告)日:2025-01-21
申请号:CN202411863320.X
申请日:2024-12-17
Applicant: 之江实验室
Abstract: 本说明书公开了一种计算内核动态调度系统及方法,计算内核动态调度系统包括:请求管理模块、调度管理模块、监控管理模块、运行管理模块,请求管理模块用于将属于不同目标任务的各待运行计算内核存放到不同的队列中进行管理,调度管理模块用于针对队列中的每个计算内核,根据监控管理模块采集的每个计算内核的执行特征数据,确定每个计算内核对于迟延的允许程度,以确定每个计算内核的后置系数,进而可以按照每个计算内核的后置系数,将各计算内核调度到相应的目标计算内核中运行,从而可以提升通过指定芯片运行各目标任务时的效率。
-
公开(公告)号:CN119293219A
公开(公告)日:2025-01-10
申请号:CN202411805809.1
申请日:2024-12-10
Applicant: 之江实验室
IPC: G06F16/334 , G06N3/0464 , G06N3/042 , G06F18/241 , G06F18/214
Abstract: 本申请涉及一种网络社交动态的情感分类方法、系统、设备和存储介质,通过对社交动态的文本进行预处理,得到预处理后的数据集;根据数据集构建包含词节点和社交动态节点的语义图;根据社交动态的话题属性,以及发布社交动态的用户的用户间关系,提取社交动态之间的关联信息,并根据社交动态之间的关联信息建立社交动态节点之间的连接关系,得到包含语义关系和社交关系的社交动态多层图;将社交动态多层图输入至集成模型进行处理,得到社交动态的情感分类结果;其中,集成模型由基于双曲学习的图卷积神经网络和大规模预训练语言模型构成;提升了社交动态的情感分类的准确度。
-
公开(公告)号:CN119179581A
公开(公告)日:2024-12-24
申请号:CN202411684883.2
申请日:2024-11-22
Applicant: 之江实验室
IPC: G06F9/50 , G06F16/182 , G06F3/06 , G06N3/0499 , G06N3/084
Abstract: 本说明书公开了一种存储资源调度方法、装置、存储介质及电子设备,可以通过预先构建的包含有多级分层的数据存储系统,执行针对目标模型的训练任务,并在执行针对目标模型的训练任务的过程中,可以基于预先确定的不同训练样本的数据质量参数,以及目标模型在不同的训练周期的不同的状态参数下对数据质量不同的训练样本数据的需求,对设置于不同分层中的不同异构存储资源进行调度管理,以提升水平方向的数据存取效率,从而可以从横纵两方面全面提升数据的存取效率,进而可以提升模型的训练效率。
-
-
公开(公告)号:CN114968588A
公开(公告)日:2022-08-30
申请号:CN202210632036.6
申请日:2022-06-07
Applicant: 之江实验室
Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。
-
-
-
-
-
-
-
-
-