-
公开(公告)号:CN115242782A
公开(公告)日:2022-10-25
申请号:CN202211148476.0
申请日:2022-09-21
Applicant: 之江实验室
IPC: H04L67/06
Abstract: 本发明涉及超级计算机的资源管理技术领域,公开一种超算中心间的大文件分片传输方法和传输架构,该方法包括:步骤一,收集超算中心间传包的文件数据,对其中作为发送方的超算中心进行初始化工作;步骤二,完成初始化工作后,发送方的超算中心获取初始状态,利用强化学习算法,动态调整文件数据的分片大小,后根据分片大小进行文件数据分片后传输给接收方的超算中心;步骤三,接收方的超算中心根据其接收状态,发送传输反馈给发送方的超算中心;步骤四,更新并判断剩余的文件数据的大小,以此判断文件数据是否传输完毕,若未传输完毕,则重复步骤二至步骤四,直至整个文件数据传输完成。本发明可以有效降低系统资源的浪费,提升整体的系统效率。
-
公开(公告)号:CN114968588A
公开(公告)日:2022-08-30
申请号:CN202210632036.6
申请日:2022-06-07
Applicant: 之江实验室
Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。
-
公开(公告)号:CN114936086A
公开(公告)日:2022-08-23
申请号:CN202210881811.1
申请日:2022-07-26
Applicant: 之江实验室
Abstract: 本发明公开了一种多计算中心场景下的任务调度器、调度方法及装置,通过感知计算中心当前和未来的资源使用情况,可以根据计算中心当前与未来一定时间内的资源占用情况,为提交到调度器的带截止日期的任务分配合适的计算中心,提前将用户计算任务下发到计算中心内;并在计算中心启动用户计算任务前,利用计算中心内专用硬件设备提前进行数据传输,将用户计算任务所依赖的数据提前下载至本计算中心内部的存储设备中,用户任务数据准备阶段无需依赖于计算中心宝贵的算力资源,从而实现计算资源和网络资源的灵活分配。本发明充分利用计算中心有限资源,实现方法简便,计算中心资源的使用率可以得到进一步的提升,且与具体计算任务无关。
-
公开(公告)号:CN114820278A
公开(公告)日:2022-07-29
申请号:CN202210463699.X
申请日:2022-04-29
Applicant: 之江实验室
Abstract: 本发明属于人工智能下的深度学习领域,公开了一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法,所述系统包括GPU Profile模块、任务信息采集模块、GPU选择模块和深度学习训练模块;本发明的一种用于分布式环境下多深度学习任务的异构GPU分配方法可以通过将不同计算能力的GPU分配给对应需求的任务,将模型层次复杂且批次数据量大的任务适配到性能最佳的GPU且显存足够存储的节点上运行,加快需要更长时间做深度学习训练的任务,从而明显提高异构环境下的多任务执行效率;而且当多深度学习任务并发执行,多深度学习能够整体更快地完成,可以节约程序员或用户等待结果的时间。
-
-
-