多层卷积算子融合优化方法、装置、设备、介质及产品

    公开(公告)号:CN119556935A

    公开(公告)日:2025-03-04

    申请号:CN202411710550.2

    申请日:2024-11-27

    Abstract: 本申请公开了一种多层卷积算子融合优化方法、装置、设备、介质及产品,涉及编译优化技术领域,该方法包括:确定待部署模型的原始计算图,基于硬件性能模型,确定原始计算图中的多个可融合算子子图;基于可融合算子子图优化原始计算图,得到优化计算图;基于优化计算图和分片尺寸,得到待部署模型的并行优化代码;目标机器运行并行优化代码,得到待部署模型的优化性能;本申请通过基于可融合算子子图优化原始计算图,能够提高目标机器执行神经网络模型时的性能。

    一种大模型训练容错方法、系统、介质及程序产品

    公开(公告)号:CN119938407A

    公开(公告)日:2025-05-06

    申请号:CN202510024249.4

    申请日:2025-01-07

    Abstract: 本发明提供一种大模型训练容错方法、系统、介质及程序产品,方法在三维分布式并行系统上执行,系统将目标大模型训练过程的参数按照数据并行、张量并行和流水线并行划分到多个GPU上并获得包含各GPU负责的模型参数和优化器状态参数的多个检查点分区;获取目标大模型当前训练批次中的多个流水线空泡时间,将前一轮训练批次中的各GPU的检查点分区作为自身检查点分区并从GPU传输至对应CPU双缓冲区的一个缓冲区,并将另一个缓冲区中的自身检查点分区写入远程持久化存储后交换两个缓冲区的用途;将多个进程构建为二维通信拓扑图并对CPU中自身检查点分区分块,多个检查点分块上的邻居进程收集操作插入到多个流水线空泡时间,利用系统空闲时间进行检查点备份。

Patent Agency Ranking