基于序列可预测的并行深度学习训练数据输入方法和系统

    公开(公告)号:CN112379849B

    公开(公告)日:2021-04-09

    申请号:CN202110062697.5

    申请日:2021-01-18

    Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。

    基于序列可预测的并行深度学习训练数据输入方法和系统

    公开(公告)号:CN112379849A

    公开(公告)日:2021-02-19

    申请号:CN202110062697.5

    申请日:2021-01-18

    Abstract: 本发明提出了一种基于序列可预测的并行深度学习训练数据输入方法,该方法在数据预取和缓存的时候,充分利用数据的访问序列可以预先确定这一特点,结合缓存命中率以及磁盘访问性能确定从底层并行文件系统中预取数据时的预取数据块大小再进行数据分配和缓存,从而使得大规模训练中第一轮训练的本地命中率得到很大提升。之后轮的训练中采用数据请求合并、根据下一轮将要使用的数据提前进行缓存替换,使整体分布式训练过程的通信开销减小,从而加快各节点的数据输入速度。本发明还基于上述方法提出了一种数据输入系统,该系统包括随机序列产生模块、数据预取模块和缓存替换模块,可以在保证全局数据随机读取的要求下,加快数据从存储中读取的速度。

    基于Tensor访问的深度学习内存管理方法及系统

    公开(公告)号:CN112306697A

    公开(公告)日:2021-02-02

    申请号:CN202011619848.4

    申请日:2020-12-31

    Abstract: 本发明提供了一种基于Tensor访问的深度学习内存管理方法,该方法通过收集神经网络的执行信息和硬件平台的性能信息获得相关决策下的内存空间开销和时间开销,并建立整数线性规划模型,通过在约束条件下优化求解最优的Tensor调度策略,从而解决内存不足问题的同时获得较高的深度学习训练性能。相比于现有技术,相同的硬件性能下,本发明可以实现更大的batchsize的神经网络训练。本发明同时还提出了一种内存管理系统,包括profile模块、决策模块和执行模块;该系统可直接添加在深度学习框架上,使用方便。

    一种大模型流水线并行训练下的二维序列拆分方法及系统

    公开(公告)号:CN119883383A

    公开(公告)日:2025-04-25

    申请号:CN202510379220.8

    申请日:2025-03-28

    Applicant: 浙江大学

    Abstract: 本发明公开了一种大模型流水线并行训练下的二维序列拆分方法及系统,属于计算机科学人工智能领域。本发明包括:数据收集模块获取设备基本信息和模型配置信息,包括GPU间带宽、设备显存大小、设备CPU内存大小、GPU‑CPU间带宽、模型维度、模型层数、输入数据序列长度;决策器根据获取的数据生成最优决策;决策内容包括冗余序列长度、保存在GPU的冗余序列比例、保存在CPU的冗余序列比例、时间维度拆分数;深度学习训练模块将所述最优决策整合于模型训练过程,提高系统整体训练性能。本发明结合空闲的显存空间和GPU‑CPU之间的带宽实现了时间空间两个维度上的序列拆分及高效训练,同时最大化了流水线并行训练的训练效率。

    面向异构内存设备的深度学习Embedding数据高效处理系统及方法

    公开(公告)号:CN114266302B

    公开(公告)日:2025-04-04

    申请号:CN202111547323.9

    申请日:2021-12-16

    Applicant: 浙江大学

    Inventor: 何水兵 陈平 李旭

    Abstract: 本发明提供了一种面向异构内存设备的深度学习Embedding数据高效处理系统及方法,该系统包括三个模块,其中Embedding数据摆放模块用于将Embedding数据与预加和数据进行分类并摆放到NVM或者DRAM上;高效索引建立模块用于对摆放好的数据建立索引;Embedding操作运行模块利用已建立好的索引,快速对请求中涉及的Embedding数据进行定位,并执行正常的Embedding操作。本发明利用深度学习Embedding数据的冷热特性以及打包出现特性在异构内存设备上进行数据摆放;并建立轻量级索引以高效地服务任务请求,该系统能够最大化利用DRAM与NVM的空间,提高系统对Embedding数据的处理效率。

    基于持久性内存的内存分配器元数据交替映射方法及系统

    公开(公告)号:CN114510439B

    公开(公告)日:2024-11-08

    申请号:CN202210101732.4

    申请日:2022-01-27

    Applicant: 浙江大学

    Abstract: 本发明提供了一种基于持久性内存的内存分配器元数据交替映射方法及系统,本发明通过对可分配内存区域元数据采用多个子位图进行存储,每个子位图的大小大于等于缓存行的大小,采用交替存放的方式将连续内存块的比特位依次存放到不同的子位图中,使内存分配器在分配连续内存块时,连续内存块的比特位会被映射到不同缓存行中。对线程私有缓存元数据采用多个子缓存进行存储,子缓存的数量等于子位图的数量,每个子缓存仅存储位于同一子位图的内存块的比特位,且所有子缓存具有访问顺序。通过修改元数据的布局模式,使得连续内存分配对bitmap的修改尽可能落在不同的缓存行内,从而避免缓存行重复刷新的问题,提高对持久性内存分配的性能。

    一种GPU负载均衡的极大二分团枚举方法

    公开(公告)号:CN117519981A

    公开(公告)日:2024-02-06

    申请号:CN202311563374.X

    申请日:2023-11-22

    Applicant: 浙江大学

    Abstract: 本发明提供了一种GPU负载均衡的极大二分团枚举方法,该方法通过在GPU中设置任务队列,将二分图数据从CPU端传输至GPU端,并将二分图G(U,V,E)的初始状态(U,V)放入任务队列中;GPU的每一计算单元分别从任务队列中取出一个子任务(L,R,C),基于子任务的负载大小判断该子任务是否需要进一步划分,若是,则将该子任务向下继续划分,将划分出的所有子任务加入任务队列中;否则执行该子任务的递归计算;本发明结合了GPU架构的特性与极大二分团算法的特点,该方法能显著提升GPU在执行极大二分图枚举的计算单元利用率,显著降低极大二分图枚举在GPU上的运行时间。

    面向神经网络检查点数据的智能压缩存储方法和系统

    公开(公告)号:CN113487025B

    公开(公告)日:2023-09-08

    申请号:CN202110749499.6

    申请日:2021-07-02

    Applicant: 浙江大学

    Abstract: 本发明提供了一种面向神经网络检查点数据的智能压缩存储方法,所述神经网络检查点数据包括权重浮点数数据和优化器浮点数数据;该方法具体为:利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储;和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储。其中,索引值的位数小于n。本发明利用深度学习检查点数据的特征并结合模型训练流程,设计了智能压缩方法与系统,对检查点不同类别数据高效压缩,从而有效提高了存储系统的存储量和寿命。

Patent Agency Ranking