适用于混合专家架构大语言模型的专家访问预测方法和系统

    公开(公告)号:CN120012935A

    公开(公告)日:2025-05-16

    申请号:CN202510101866.X

    申请日:2025-01-22

    Abstract: 本发明提供了一种适用于混合专家架构大语言模型的专家访问预测方法和系统,综合考虑模型结构和硬件特征信息,通过为每一层构建基于神经网络的专家访问预测器,并利用历史数据进行训练,能够提前预测模型推理过程中需要激活的专家。这一过程中,预测器在CPU上并行执行预测,而预取器根据预测结果提前将专家参数从主机内存加载到GPU显存中。通过调整预测距离在预测准确率和预取提前量之间进行权衡,并能根据预测准确率动态调整预取数量。同时,采用并行加载,最大化地利用系统资源,减少对GPU推理性能的影响。最后,通过高优先级重新预取等机制来处理预测错误的情况,确保模型推理的正常进行。

    适用于多GPU环境的高效嵌入向量访问方法及系统

    公开(公告)号:CN117873730A

    公开(公告)日:2024-04-12

    申请号:CN202410164168.X

    申请日:2024-02-05

    Abstract: 本发明提供了一种适用于多GPU环境的高效嵌入向量访问方法及系统,包括:获取计算平台的硬件特征信息;将GPU中的计算单元划分为多个逻辑分组;为各个计算单元逻辑分组分别创建高优先级的局部计算任务队列;为所有计算单元创建低优先级的全局计算任务队列;每接收到一批嵌入向量的访问请求时,在缓存索引表中查询各个嵌入向量的具体存储位置;根据查询得到的存储位置将嵌入向量的批次访问请求划分为若干子批次;对于需要从非本地存储位置进行访问的子批次,将其放入存储位置对应的局部任务队列中,以在相对应的计算单元逻辑分组上执行;在启动非本地子批次嵌入向量访问后,将访问本地的子批次放入优先级较低的全局任务队列,以在所有计算单元上执行。

Patent Agency Ranking