Patent search ap:("之江实验室") AND inv:"杨如丹" Page 1

1.

发明公开
一种数据传输方法、装置、计算设备和存储介质审中-实审

公开(公告)号：CN119645919A

公开(公告)日：2025-03-18

申请号：CN202510169425.3

申请日：2025-02-17

Applicant: 之江实验室

Inventor： 陈培俊 , 程宏才 , 胡永新 , 王琪 , 杨如丹 , 林志文

IPC: G06F13/42 , G06F9/54

Abstract: 本发明公开了一种数据传输方法、装置、计算设备和存储介质，涉及计算机技术领域，方法包括：计算设备响应于接收到的来自目标设备的数据传输请求，从存储介质中获取目标设备的共享内存地址，共享内存地址是指目标设备中的共享内存的唯一地址；其中，目标设备中的共享内存与全局内存都采用统一编址技术，以使得共享内存通过共享内存地址直接连接到PCIe总线。计算设备通过PCIe总线向共享内存地址发起数据传输操作。以这种方式GMEM和SMEM使用了统一的地址空间，并且SMEM的地址暴露给外部。这意味着，无论是CPU还是RDMA控制器，都能够通过单一的地址空间来访问这两种类型的内存。本申请解决了现有技术中数据传输效率低的技术问题。

2.

发明授权
面向异构GPU机间直接通信的自动化测试系统和方法有权

公开(公告)号：CN119127624B

公开(公告)日：2025-03-14

申请号：CN202411625060.2

申请日：2024-11-14

Applicant: 之江实验室

Inventor： 杨如丹 , 程宏才 , 薛辉

IPC: G06F11/30 , G06F11/3668 , G06F15/173 , H04L43/06 , H04L43/08

Abstract: 本发明公开了一种面向异构GPU机间直接通信的自动化测试系统和方法，所述方法包括：由用户检查和配置测试参数并提交测试请求，测试管理器解析请求后进行调度处理，执行具体测试流程，最后收集测试数据，并进行结果分析和测试报告的生成。为实现以上方法，本系统包括以下模块：用户界面模块、测试管理器模块、配置数据库模块、测试执行器模块、网络接口模块、结果分析器模块、以及报告生成器模块，各模块间协调处理以完成异构GPU环境中机器间GPU Direct RDMA方式下高速通信的自动化测试。本系统支持多种GPU厂商的软硬件配置，提供标准化的测试流程和方法，解决了异构GPU环境下GDR测试繁琐和效率低下问题。

3.

发明公开
一种混合加速卡管理方法、装置、电子装置和存储介质审中-实审

公开(公告)号：CN119473994A

公开(公告)日：2025-02-18

申请号：CN202510059248.3

申请日：2025-01-15

Applicant: 之江实验室

Inventor： 王琪 , 林志文 , 杨如丹 , 胡永新 , 陈培俊 , 程宏才

IPC: G06F15/173 , G06F9/445

Abstract: 本申请涉及一种混合加速卡管理方法、装置、电子装置和存储介质，应用于计算机硬件加速、数据存储和传输领域，其中，该混合加速卡管理方法包括：响应于接收到的服务器数据传输请求，确定混合加速卡的运行时库接口；基于远程直接内存访问技术，将混合加速卡的内存地址注册至预设的硬件抽象层；硬件抽象层中预设有统一硬件抽象接口；运行时库接口与统一硬件抽象接口绑定；通过预设的硬件抽象层，调用运行时库接口执行混合加速卡之间的数据传输操作。通过本申请，在兼容不同厂商GPU加速卡的同时，实现了提高数据处理和传输效率的效果。

4.

发明授权
基于分布式内存管理的大模型训练故障恢复方法和装置有权

公开(公告)号：CN119473732B

公开(公告)日：2025-03-25

申请号：CN202510067262.8

申请日：2025-01-16

Applicant: 之江实验室 , 上海人工智能创新中心

Inventor： 胡永新 , 程宏才 , 陈培俊 , 王琪 , 杨如丹 , 林志文

IPC: G06F11/14 , G06N3/0455 , G06N3/063 , G06N5/04

Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法，当判断当前训练轮次需要进行检查点保存业务，获取当前时刻模型状态，并将获取到的模型状态序列化成可存储的格式，生成检查点数据；然后将检查点数据从节点内设备端内存传输至主机端内存；并在传输完毕后继续训练任务，同时进行异步检查点保存；异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种；训练任务出错时，通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据，可以显著减少因磁盘I/O瓶颈导致的延迟，从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降，保持GPU或其他计算资源的高效利用，提高大规模模型训练的连续性和稳定性。

5.

发明公开
基于分布式内存管理的大模型训练故障恢复方法和装置有权

公开(公告)号：CN119473732A

公开(公告)日：2025-02-18

申请号：CN202510067262.8

申请日：2025-01-16

Applicant: 之江实验室 , 上海人工智能创新中心

Inventor： 胡永新 , 程宏才 , 陈培俊 , 王琪 , 杨如丹 , 林志文

IPC: G06F11/14 , G06N3/0455 , G06N3/063 , G06N5/04

Abstract: 本发明公开一种基于分布式内存管理的大模型训练故障恢复方法，当判断当前训练轮次需要进行检查点保存业务，获取当前时刻模型状态，并将获取到的模型状态序列化成可存储的格式，生成检查点数据；然后将检查点数据从节点内设备端内存传输至主机端内存；并在传输完毕后继续训练任务，同时进行异步检查点保存；异步检查点保存包括数据分布式内存备份和数据持久化到磁盘两种；训练任务出错时，通过检查点数据进行任务恢复。本发明故障恢复时优先从内存中读取备份数据，可以显著减少因磁盘I/O瓶颈导致的延迟，从而减少因保存或加载检查点数据操作而导致的训练暂停或效率下降，保持GPU或其他计算资源的高效利用，提高大规模模型训练的连续性和稳定性。

6.

发明授权
一种基于分布式实时通信的自动化测试方法和系统有权

公开(公告)号：CN117354218B

公开(公告)日：2024-04-16

申请号：CN202311642669.6

申请日：2023-12-04

Applicant: 之江实验室

Inventor： 杨如丹 , 杨娟娟 , 王霄岚 , 杜承垚 , 宋晓峰 , 赵志峰

IPC: H04L43/50 , H04L43/06 , H04L43/045 , H04L67/10 , H04L67/2871 , G06F11/36

Abstract: 本发明公开了一种基于分布式实时通信的自动化测试方法和系统，该方法包括：在被测服务器上，先将搭载了分布式通讯组件的自动化测试中间服务模块作为分布式架构的一个节点加入到智能信号处理系统的数据通讯服务中；再借助此自动化测试中间服务模块中集成的微网络框架把DDS的订阅协议和发布协议封装成Http协议的API接口来与远端测试服务器进行通信；在远端测试服务器上，通过自动化测试框架打造的接口自动化测试框架实现测试用例的编写、管理以及测试结果的可视化展示；最后由CI集成化工具来完成自动化测试的可持续构建、部署和执行工作。本发明能够将被测系统的测试流水化、模块化，在保护被测系统性能和效率的情况下完成各类测试。

7.

发明公开
面向异构GPU机间直接通信的自动化测试系统和方法有权

公开(公告)号：CN119127624A

公开(公告)日：2024-12-13

申请号：CN202411625060.2

申请日：2024-11-14

Applicant: 之江实验室

Inventor： 杨如丹 , 程宏才 , 薛辉

IPC: G06F11/30 , G06F11/36 , G06F15/173 , H04L43/06 , H04L43/08

Abstract: 本发明公开了一种面向异构GPU机间直接通信的自动化测试系统和方法，所述方法包括：由用户检查和配置测试参数并提交测试请求，测试管理器解析请求后进行调度处理，执行具体测试流程，最后收集测试数据，并进行结果分析和测试报告的生成。为实现以上方法，本系统包括以下模块：用户界面模块、测试管理器模块、配置数据库模块、测试执行器模块、网络接口模块、结果分析器模块、以及报告生成器模块，各模块间协调处理以完成异构GPU环境中机器间GPU Direct RDMA方式下高速通信的自动化测试。本系统支持多种GPU厂商的软硬件配置，提供标准化的测试流程和方法，解决了异构GPU环境下GDR测试繁琐和效率低下问题。

8.

发明公开
一种基于分布式实时通信的自动化测试方法和系统审中-实审

公开(公告)号：CN117354218A

公开(公告)日：2024-01-05

申请号：CN202311642669.6

申请日：2023-12-04

Applicant: 之江实验室

Inventor： 杨如丹 , 杨娟娟 , 王霄岚 , 杜承垚 , 宋晓峰 , 赵志峰

IPC: H04L43/50 , H04L43/06 , H04L43/045 , H04L67/10 , H04L67/2871 , G06F11/36

Abstract: 本发明公开了一种基于分布式实时通信的自动化测试方法和系统，该方法包括：在被测服务器上，先将搭载了分布式通讯组件的自动化测试中间服务模块作为分布式架构的一个节点加入到智能信号处理系统的数据通讯服务中；再借助此自动化测试中间服务模块中集成的微网络框架把DDS的订阅协议和发布协议封装成Http协议的API接口来与远端测试服务器进行通信；在远端测试服务器上，通过自动化测试框架打造的接口自动化测试框架实现测试用例的编写、管理以及测试结果的可视化展示；最后由CI集成化工具来完成自动化测试的可持续构建、部署和执行工作。本发明能够将被测系统的测试流水化、模块化，在保护被测系统性能和效率的情况下完成各类测试。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification