适用于大语言模型稀疏推理的计算与存储方法及系统

    公开(公告)号:CN118467136B

    公开(公告)日:2025-02-14

    申请号:CN202410689237.9

    申请日:2024-05-30

    Abstract: 本发明提供了一种适用于大语言模型稀疏推理的计算与存储方法、系统与装置,包括:步骤S1:根据大语言模型推理的计算图,将大语言模型的推理计算过程划分为多个细粒度的计算任务;步骤S2:编排大语言模型参数的存储格式;步骤S3:缓存大语言模型的参数,并且发出I/O请求,将对应的模型参数读入至内存;步骤S4:使用计算队列和I/O队列分别记录大语言模型参数已在缓存的计算任务、未在缓存的计算任务;执行计算队列中的计算任务;步骤S5:将完成的计算任务,从计算队列移除。本发明涉及一种适用于大语言模型稀疏推理的计算与存储框架,该框架通过协同计算与存储加载的过程,最大化设备处理器和存储传输的利用率,提高了大语言模型的推理性能。

    基于近似规约机制的预测器联合训练方法及系统

    公开(公告)号:CN118468990B

    公开(公告)日:2024-12-27

    申请号:CN202410689244.9

    申请日:2024-05-30

    Abstract: 本发明提供了一种基于近似规约的预测器联合训练方法及系统,涉及预测器训练技术领域,包括:修改原模型步骤:修改原模型的前馈层结构,在前馈层前嵌入预测器并进行权重初始化;可微步骤:通过二值化转换机制使嵌入预测器的模型结构整体可微;冻结参数步骤:冻结原模型所有参数,仅保留预测器参数可训;训练步骤:采集并清洗通用语料,在通用语料上训练模型,利用多元数据使预测器拟合模型的激活特征。本发明具有高效、安全、自动化等特点,非常适合用于训练模型稀疏性的预测模块。

    智能手机的大语言模型快速推理方法、装置及系统

    公开(公告)号:CN118446321B

    公开(公告)日:2024-11-29

    申请号:CN202410689239.8

    申请日:2024-05-30

    Abstract: 本发明提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明能够显著提升推理速度和性能。

    快速提升大语言模型激活稀疏性的方法和系统

    公开(公告)号:CN118468944A

    公开(公告)日:2024-08-09

    申请号:CN202410689242.X

    申请日:2024-05-30

    Abstract: 本发明提供了一种快速提升大语言模型激活稀疏性的方法和系统,包括:步骤1:将大语言模型的前馈层激活函数修改为ReLU激活函数;步骤2:在大语言模型前馈层中用于增强非线性能力的门控线性单元模块的输出后加入ReLU激活函数;步骤3:清洗并混合多来源的预训练语料;步骤4:根据超参数尺度定律选择最优训练超参数;步骤5:在200B的语料上训练模型,训练过程中采用数据并行、模型并行、流水线并行为基础的分布式训练策略;步骤6:将模型在指令对齐,以及人类偏好的数据集中进行模型微调。本发明通过引入更高质量和多元化的语料混合,不仅保持了模型的稀疏性,还提升了模型的整体能力,使其适用的应用场景更加广泛。

    基于近似规约机制的预测器联合训练方法及系统

    公开(公告)号:CN118468990A

    公开(公告)日:2024-08-09

    申请号:CN202410689244.9

    申请日:2024-05-30

    Abstract: 本发明提供了一种基于近似规约的预测器联合训练方法及系统,涉及预测器训练技术领域,包括:修改原模型步骤:修改原模型的前馈层结构,在前馈层前嵌入预测器并进行权重初始化;可微步骤:通过二值化转换机制使嵌入预测器的模型结构整体可微;冻结参数步骤:冻结原模型所有参数,仅保留预测器参数可训;训练步骤:采集并清洗通用语料,在通用语料上训练模型,利用多元数据使预测器拟合模型的激活特征。本发明具有高效、安全、自动化等特点,非常适合用于训练模型稀疏性的预测模块。

    适用于消费级显卡的快速大模型推理服务方法和系统

    公开(公告)号:CN117689025B

    公开(公告)日:2024-06-14

    申请号:CN202311676610.9

    申请日:2023-12-07

    Abstract: 本发明提供了一种适用于消费级显卡的快速大模型推理服务方法和系统,包括:对预测器基线模型进行训练,获得神经元激活预测模型,预测神经元是否激活;将模型中的神经元分类为静态神经元和动态神经元,在离线时期分别分发给GPU和CPU;为每个神经元定义一个影响因子,并建立一个整数线性规划模型,通过近似求解获得执行效率最大化的神经元分发策略,并依据该策略将神经元预载到对应存储器中;CPU和GPU按照依赖关系异步执行各自神经元上已激活神经元的运算,最后同步合并运算结果;根据神经元激活预测的结果,识别并跳过未激活神经元的计算。本发明兼顾模型推理的运算速率和准确率,在提升推理服务性能的同时维持模型本身的准确率。

    快速提升大语言模型激活稀疏性的方法和系统

    公开(公告)号:CN118468944B

    公开(公告)日:2025-02-14

    申请号:CN202410689242.X

    申请日:2024-05-30

    Abstract: 本发明提供了一种快速提升大语言模型激活稀疏性的方法和系统,包括:步骤1:将大语言模型的前馈层激活函数修改为ReLU激活函数;步骤2:在大语言模型前馈层中用于增强非线性能力的门控线性单元模块的输出后加入ReLU激活函数;步骤3:清洗并混合多来源的预训练语料;步骤4:根据超参数尺度定律选择最优训练超参数;步骤5:在200B的语料上训练模型,训练过程中采用数据并行、模型并行、流水线并行为基础的分布式训练策略;步骤6:将模型在指令对齐,以及人类偏好的数据集中进行模型微调。本发明通过引入更高质量和多元化的语料混合,不仅保持了模型的稀疏性,还提升了模型的整体能力,使其适用的应用场景更加广泛。

    适用于大语言模型稀疏推理的计算与存储方法及系统

    公开(公告)号:CN118467136A

    公开(公告)日:2024-08-09

    申请号:CN202410689237.9

    申请日:2024-05-30

    Abstract: 本发明提供了一种适用于大语言模型稀疏推理的计算与存储方法、系统与装置,包括:步骤S1:根据大语言模型推理的计算图,将大语言模型的推理计算过程划分为多个细粒度的计算任务;步骤S2:编排大语言模型参数的存储格式;步骤S3:缓存大语言模型的参数,并且发出I/O请求,将对应的模型参数读入至内存;步骤S4:使用计算队列和I/O队列分别记录大语言模型参数已在缓存的计算任务、未在缓存的计算任务;执行计算队列中的计算任务;步骤S5:将完成的计算任务,从计算队列移除。本发明涉及一种适用于大语言模型稀疏推理的计算与存储框架,该框架通过协同计算与存储加载的过程,最大化设备处理器和存储传输的利用率,提高了大语言模型的推理性能。

    智能手机的大语言模型快速推理方法、装置及系统

    公开(公告)号:CN118446321A

    公开(公告)日:2024-08-06

    申请号:CN202410689239.8

    申请日:2024-05-30

    Abstract: 本发明提供了一种智能手机的大语言模型快速推理方法、装置及系统,包括步骤S1:构建检测系统,使用检测系统采集待测设备信息;所述待测设备信息包括硬件配置信息、模型配置信息和用户需求信息;步骤S2:使检测系统根据待测设备信息自动选择相应的推理策略;步骤S3:加载大语言模型的参数,初始化推理环境,开启推理过程;所述推理过程包括预填充阶段和解码阶段;步骤S4:生成并返回推理结果,形成结果报告;获取用户反馈后调整推理策略,优化推理过程。本发明通过智能调度算法,充分利用智能手机内的CPU、GPU和NPU等异构计算单元,优化了计算资源的使用效率;与传统方法相比,本发明能够显著提升推理速度和性能。

    适用于消费级显卡的快速大模型推理服务方法和系统

    公开(公告)号:CN117689025A

    公开(公告)日:2024-03-12

    申请号:CN202311676610.9

    申请日:2023-12-07

    Abstract: 本发明提供了一种适用于消费级显卡的快速大模型推理服务方法和系统,包括:对预测器基线模型进行训练,获得神经元激活预测模型,预测神经元是否激活;将模型中的神经元分类为静态神经元和动态神经元,在离线时期分别分发给GPU和CPU;为每个神经元定义一个影响因子,并建立一个整数线性规划模型,通过近似求解获得执行效率最大化的神经元分发策略,并依据该策略将神经元预载到对应存储器中;CPU和GPU按照依赖关系异步执行各自神经元上已激活神经元的运算,最后同步合并运算结果;根据神经元激活预测的结果,识别并跳过未激活神经元的计算。本发明兼顾模型推理的运算速率和准确率,在提升推理服务性能的同时维持模型本身的准确率。

Patent Agency Ranking