-
公开(公告)号:CN120069097A
公开(公告)日:2025-05-30
申请号:CN202510542935.0
申请日:2025-04-28
Applicant: 北京邮电大学
IPC: G06N5/04
Abstract: 本申请提供MoE稀疏大模型的分阶段混合并行推理方法及系统,涉及特定计算模型系统技术领域,方法包括:在预填充阶段控制MoE稀疏大模型逐层执行:在获取提示数据序列的各字符的专家号的同时,向各设备添加基于张量并行策略运行的第一混合专家层模型参数;再基于各设备中的基于专家并行策略运行的第二混合专家层模型参数进行专家并行计算;将字符恢复至设备初始位置并释放第二混合专家层模型参数;将模型最后层输出的预测字符发送至首个层以用于根据预测字符和各设备中的第一混合专家层模型参数执行解码阶段的推理。本申请能够解决现有MoE稀疏大模型推理技术采用的并行策略对预填充阶段以及解码阶段的适配性较差且通信开销较大的问题。