适用于分布式深度学习训练预取缓存管理的方法和装置

    公开(公告)号:CN116501696A

    公开(公告)日:2023-07-28

    申请号:CN202310790835.0

    申请日:2023-06-30

    Inventor: 孔丽娟 梅飞 刘鹏

    Abstract: 本发明公开了一种适用于分布式深度学习训练预取缓存管理的方法和装置,包括:深度学习任务初始化时,初始化预取缓存空间;在深度学习训练任务每个轮次训练开始前,生成轮次的洗牌序列,按照该洗牌序列构建缓存索引;在深度学习训练任务进行训练时,根据缓存索引,从预取缓存空间中获取数据,若缓存未命中,则以存储节点为划分依据,到分布式存储中进行批量预取;在预取缓存空间已用容量达到指定阈值时启动缓存淘汰,淘汰掉缓存命中的数据。该方法和装置以存储节点为划分依据进行批量预取,减少了节点之间的通信次数,提高了通信效率,同时,对缓存命中的数据进行淘汰,使得缓存中都是即将命中的数据,提高了缓存命中率。

    一种深度学习训练数据集快速载入临时缓存方法和装置

    公开(公告)号:CN116136838A

    公开(公告)日:2023-05-19

    申请号:CN202310420302.3

    申请日:2023-04-19

    Inventor: 孔丽娟 梅飞 刘鹏

    Abstract: 本发明公开了一种深度学习训练数据集快速载入临时缓存方法和装置,该方法用于使用临时缓存对深度学习训练进行加速时,提升数据从远端共享存储载入本地高速存储模块的性能。本发明核心思想是根据共享存储IO特性以及计算节点并发规模,将数据集样本预先组织成合适大小的文件,以解决载入时的元数据热点问题,同时挖掘共享存储的大IO单元优势和高并发访问优势。方法包括三个模块:样本聚合模块,用于在共享存储中把原始样本文件重新组织成适合高速载入的文件;载入模块,用于在训练的初始化阶段把共享存储中经过重新组织的数据集文件加载到临时缓存;样本读取模块,用于在训练过程中从载入临时缓存的数据集中识别并读取训练样本。

Patent Agency Ranking