基于草稿模型token筛选的投机采样方法及装置

    公开(公告)号:CN119940548A

    公开(公告)日:2025-05-06

    申请号:CN202510048164.X

    申请日:2025-01-13

    Inventor: 李一鹏 梁德澎

    Abstract: 本公开提供了一种基于草稿模型token筛选的投机采样方法及装置。该方法包括:草稿模型基于输入序列进行推理计算,生成多个候选token;分别计算每个候选token的预测评分,所述预测评分用于表示候选token被目标模型接受的概率;通过所述预测评分对所述多个候选token进行筛选;将筛选后的候选token输入到目标模型再次进行推理计算;对计算结果进行采样生成目标token以用于后续的推理计算。本申请涉及的基于草稿模型token筛选的投机采样方法及装置,能够在保证了推理结果质量的同时,优化了采样性能,有效的提升大模型推理优化时投机采样的效率,适应范围广。

    用于大语言模型的LoRA权重管理方法及装置

    公开(公告)号:CN119808956A

    公开(公告)日:2025-04-11

    申请号:CN202510077237.8

    申请日:2025-01-17

    Abstract: 本公开提供了一种用于大语言模型的LoRA权重管理方法及装置。该方法包括:大语言模型的推理系统获取LoRA权重数据,所述LoRA权重数据包括:低秩矩阵A和低秩矩阵B;确定所述LoRA权重数据的存储位置;按照所述存储位置将所述低秩矩阵A和所述低秩矩阵B分别以页为单位进行储存;记录LoRA权重数据和其对应储存页之间的映射关系;大语言模型的推理系统根据所述映射关系调用所述LoRA权重数据以进行推理计算。本申请涉及的用于大语言模型的LoRA权重管理方法及装置,通过分页存储和映射管理LoRA权重,能够提升显存利用率和计算效率,支持大规模模型灵活扩展,适配多硬件环境,优化推理性能。

    用于大语言模型推理的LoRA权重加载方法及装置

    公开(公告)号:CN119831052A

    公开(公告)日:2025-04-15

    申请号:CN202510077234.4

    申请日:2025-01-17

    Abstract: 本公开提供了一种用于大语言模型推理的LoRA权重加载方法及装置。该方法包括:在大语言模型的推理请求中包含LoRA权重计算时,将所述推理请求添加到准备队列;在准备队列中,对N个推理请求进行预处理操作;在预处理操作过程中,将LoRA权重按照预设规则拷贝至CPU的连续缓存区;在预处理操作完成之后,将所述推理请求添加到等待队列;在推理请求被调度执行时,将所述推理请求对应的LoRA权重加载到大语言模型的GPU中以进行推理计算。本申请涉及的用于大语言模型推理的LoRA权重加载方法及装置,通过高效的权重定义方式以及批处理拷贝机制,实现了LoRA权重的高效加载,提高了大语言模型的推理效率。

    基于medusa模型token筛选方法及装置

    公开(公告)号:CN119940549A

    公开(公告)日:2025-05-06

    申请号:CN202510048170.5

    申请日:2025-01-13

    Inventor: 李一鹏 梁德澎

    Abstract: 本公开提供了一种基于medusa模型token筛选方法及装置。该方法包括:利用目标模型对输入序列进行推理计算,生成多个候选token;对所述多个候选token进行采样,提取部分候选token;将所述部分候选token输入到medusa模型中进行投机推理,生成树状结构的多个投机token;基于树状结构采用剪枝方式对所述多个投机token筛选,生成目标token;基于所述目标token进行后续推理计算以生成输出结果。本申请涉及的基于medusa模型token筛选方法及装置,能够在保证了推理结果质量的同时,优化token采样性能,有效的提升大模型推理优化时投机采样的效率,适应范围广。

    用于生成式模型推理的树状投机采样方法及装置

    公开(公告)号:CN119918675A

    公开(公告)日:2025-05-02

    申请号:CN202510030324.8

    申请日:2025-01-08

    Inventor: 李一鹏 梁德澎

    Abstract: 本公开提供了一种用于生成式模型推理的树状投机采样方法及装置。该方法包括:将输入序列输入生成式模型中;所述生成式模型基于所述输入序列进行推理计算生成树状结构的多个候选token;接受所述树状结构中的部分候选token;通过所述部分候选token更新所述输入序列以生成当前序列;基于当前序列进行下一步推理计算,并在下一步推理计算中重新计算未进行缓存的token;当满足终止条件时,输出生成的最终序列。本申请涉及的用于生成式模型推理的树状投机采样方法及装置,能够并行探索多种可能的生成路径,避免逐步推理带来的效率瓶颈,并且在推理计算的过程中节省计算资源,实现缓存效率与灵活性的平衡。

    基于大语言模型的交互式图像处理方法及装置

    公开(公告)号:CN119806714A

    公开(公告)日:2025-04-11

    申请号:CN202510078680.7

    申请日:2025-01-17

    Inventor: 柳俊丞 姚迟

    Abstract: 本申请涉及一种基于大语言模型的交互式图像处理方法及装置。该方法包括:在用户端按照预设布局显示输入区,交互区,结果展示区和插件区;在所述输入区获取用户的输入信息,所述输入信息包括以下信息中的一个或多个:文本信息、语音信息、图像信息;大语言模型解析所述输入信息,根据所述输入信息执行处理并生成图像形式和文字形式的输出结果;将图像形式的输出结果展示在所述结果展示区;将文字形式的输出结果展示在所述交互区;由插件区和/或输入区和/或结果展示区获取用户的输入信息,根据所述输入信息对图像形式的输出结果进行后续处理。本申请涉及的基于大语言模型的交互式图像处理方法及装置,能够通过仿人交互方式,结合插件化功能扩展,实现了低门槛、高灵活性和直观操作的图像生成与编辑体验。

Patent Agency Ranking