-
公开(公告)号:CN119645919A
公开(公告)日:2025-03-18
申请号:CN202510169425.3
申请日:2025-02-17
Applicant: 之江实验室
Abstract: 本发明公开了一种数据传输方法、装置、计算设备和存储介质,涉及计算机技术领域,方法包括:计算设备响应于接收到的来自目标设备的数据传输请求,从存储介质中获取目标设备的共享内存地址,共享内存地址是指目标设备中的共享内存的唯一地址;其中,目标设备中的共享内存与全局内存都采用统一编址技术,以使得共享内存通过共享内存地址直接连接到PCIe总线。计算设备通过PCIe总线向共享内存地址发起数据传输操作。以这种方式GMEM和SMEM使用了统一的地址空间,并且SMEM的地址暴露给外部。这意味着,无论是CPU还是RDMA控制器,都能够通过单一的地址空间来访问这两种类型的内存。本申请解决了现有技术中数据传输效率低的技术问题。
-
公开(公告)号:CN119473994A
公开(公告)日:2025-02-18
申请号:CN202510059248.3
申请日:2025-01-15
Applicant: 之江实验室
IPC: G06F15/173 , G06F9/445
Abstract: 本申请涉及一种混合加速卡管理方法、装置、电子装置和存储介质,应用于计算机硬件加速、数据存储和传输领域,其中,该混合加速卡管理方法包括:响应于接收到的服务器数据传输请求,确定混合加速卡的运行时库接口;基于远程直接内存访问技术,将混合加速卡的内存地址注册至预设的硬件抽象层;硬件抽象层中预设有统一硬件抽象接口;运行时库接口与统一硬件抽象接口绑定;通过预设的硬件抽象层,调用运行时库接口执行混合加速卡之间的数据传输操作。通过本申请,在兼容不同厂商GPU加速卡的同时,实现了提高数据处理和传输效率的效果。
-
公开(公告)号:CN119473732B
公开(公告)日:2025-03-25
申请号:CN202510067262.8
申请日:2025-01-16
Applicant: 之江实验室 , 上海人工智能创新中心
IPC: G06F11/14 , G06N3/0455 , G06N3/063 , G06N5/04
Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。
-
公开(公告)号:CN119473732A
公开(公告)日:2025-02-18
申请号:CN202510067262.8
申请日:2025-01-16
Applicant: 之江实验室 , 上海人工智能创新中心
IPC: G06F11/14 , G06N3/0455 , G06N3/063 , G06N5/04
Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。
-
-
-