一种数据传输方法、装置、计算设备和存储介质

    公开(公告)号:CN119645919A

    公开(公告)日:2025-03-18

    申请号:CN202510169425.3

    申请日:2025-02-17

    Abstract: 本发明公开了一种数据传输方法、装置、计算设备和存储介质,涉及计算机技术领域,方法包括:计算设备响应于接收到的来自目标设备的数据传输请求,从存储介质中获取目标设备的共享内存地址,共享内存地址是指目标设备中的共享内存的唯一地址;其中,目标设备中的共享内存与全局内存都采用统一编址技术,以使得共享内存通过共享内存地址直接连接到PCIe总线。计算设备通过PCIe总线向共享内存地址发起数据传输操作。以这种方式GMEM和SMEM使用了统一的地址空间,并且SMEM的地址暴露给外部。这意味着,无论是CPU还是RDMA控制器,都能够通过单一的地址空间来访问这两种类型的内存。本申请解决了现有技术中数据传输效率低的技术问题。

    面向异构GPU机间直接通信的自动化测试系统和方法

    公开(公告)号:CN119127624B

    公开(公告)日:2025-03-14

    申请号:CN202411625060.2

    申请日:2024-11-14

    Abstract: 本发明公开了一种面向异构GPU机间直接通信的自动化测试系统和方法,所述方法包括:由用户检查和配置测试参数并提交测试请求,测试管理器解析请求后进行调度处理,执行具体测试流程,最后收集测试数据,并进行结果分析和测试报告的生成。为实现以上方法,本系统包括以下模块:用户界面模块、测试管理器模块、配置数据库模块、测试执行器模块、网络接口模块、结果分析器模块、以及报告生成器模块,各模块间协调处理以完成异构GPU环境中机器间GPU Direct RDMA方式下高速通信的自动化测试。本系统支持多种GPU厂商的软硬件配置,提供标准化的测试流程和方法,解决了异构GPU环境下GDR测试繁琐和效率低下问题。

    一种混合加速卡管理方法、装置、电子装置和存储介质

    公开(公告)号:CN119473994A

    公开(公告)日:2025-02-18

    申请号:CN202510059248.3

    申请日:2025-01-15

    Abstract: 本申请涉及一种混合加速卡管理方法、装置、电子装置和存储介质,应用于计算机硬件加速、数据存储和传输领域,其中,该混合加速卡管理方法包括:响应于接收到的服务器数据传输请求,确定混合加速卡的运行时库接口;基于远程直接内存访问技术,将混合加速卡的内存地址注册至预设的硬件抽象层;硬件抽象层中预设有统一硬件抽象接口;运行时库接口与统一硬件抽象接口绑定;通过预设的硬件抽象层,调用运行时库接口执行混合加速卡之间的数据传输操作。通过本申请,在兼容不同厂商GPU加速卡的同时,实现了提高数据处理和传输效率的效果。

    基于分布式内存管理的大模型训练故障恢复方法和装置

    公开(公告)号:CN119473732B

    公开(公告)日:2025-03-25

    申请号:CN202510067262.8

    申请日:2025-01-16

    Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。

    基于分布式内存管理的大模型训练故障恢复方法和装置

    公开(公告)号:CN119473732A

    公开(公告)日:2025-02-18

    申请号:CN202510067262.8

    申请日:2025-01-16

    Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法,当判断当前训练轮次需要进行检查点保存业务,获取当前时刻模型状态,并将获取到的模型状态序列化成可存储的格式,生成检查点数据;然后将检查点数据从节点内设备端内存传输至主机端内存;并在传输完毕后继续训练任务,同时进行异步检查点保存;异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种;训练任务出错时,通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据,可以显著减少因磁盘I/O瓶颈导致的延迟,从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降,保持GPU或其他计算资源的高效利用,提高大规模模型训练的连续性和稳定性。

    一种基于分布式实时通信的自动化测试方法和系统

    公开(公告)号:CN117354218B

    公开(公告)日:2024-04-16

    申请号:CN202311642669.6

    申请日:2023-12-04

    Abstract: 本发明公开了一种基于分布式实时通信的自动化测试方法和系统,该方法包括:在被测服务器上,先将搭载了分布式通讯组件的自动化测试中间服务模块作为分布式架构的一个节点加入到智能信号处理系统的数据通讯服务中;再借助此自动化测试中间服务模块中集成的微网络框架把DDS的订阅协议和发布协议封装成Http协议的API接口来与远端测试服务器进行通信;在远端测试服务器上,通过自动化测试框架打造的接口自动化测试框架实现测试用例的编写、管理以及测试结果的可视化展示;最后由CI集成化工具来完成自动化测试的可持续构建、部署和执行工作。本发明能够将被测系统的测试流水化、模块化,在保护被测系统性能和效率的情况下完成各类测试。

    面向异构GPU机间直接通信的自动化测试系统和方法

    公开(公告)号:CN119127624A

    公开(公告)日:2024-12-13

    申请号:CN202411625060.2

    申请日:2024-11-14

    Abstract: 本发明公开了一种面向异构GPU机间直接通信的自动化测试系统和方法,所述方法包括:由用户检查和配置测试参数并提交测试请求,测试管理器解析请求后进行调度处理,执行具体测试流程,最后收集测试数据,并进行结果分析和测试报告的生成。为实现以上方法,本系统包括以下模块:用户界面模块、测试管理器模块、配置数据库模块、测试执行器模块、网络接口模块、结果分析器模块、以及报告生成器模块,各模块间协调处理以完成异构GPU环境中机器间GPU Direct RDMA方式下高速通信的自动化测试。本系统支持多种GPU厂商的软硬件配置,提供标准化的测试流程和方法,解决了异构GPU环境下GDR测试繁琐和效率低下问题。

    一种基于分布式实时通信的自动化测试方法和系统

    公开(公告)号:CN117354218A

    公开(公告)日:2024-01-05

    申请号:CN202311642669.6

    申请日:2023-12-04

    Abstract: 本发明公开了一种基于分布式实时通信的自动化测试方法和系统,该方法包括:在被测服务器上,先将搭载了分布式通讯组件的自动化测试中间服务模块作为分布式架构的一个节点加入到智能信号处理系统的数据通讯服务中;再借助此自动化测试中间服务模块中集成的微网络框架把DDS的订阅协议和发布协议封装成Http协议的API接口来与远端测试服务器进行通信;在远端测试服务器上,通过自动化测试框架打造的接口自动化测试框架实现测试用例的编写、管理以及测试结果的可视化展示;最后由CI集成化工具来完成自动化测试的可持续构建、部署和执行工作。本发明能够将被测系统的测试流水化、模块化,在保护被测系统性能和效率的情况下完成各类测试。

Patent Agency Ranking