基于模型量化的任务处理方法、装置、设备及存储介质

    公开(公告)号:CN115860068A

    公开(公告)日:2023-03-28

    申请号:CN202211186183.1

    申请日:2022-09-27

    Abstract: 本申请提供一种基于模型量化的任务处理方法、装置、设备及存储介质,该基于模型量化的任务处理方法包括:依据Transformer模型中优化单元的第一量化输出和第一浮点输出之间的差异,对优化单元的权重量化系数和激活量化系数进行更新;依据优化单元的第二量化输出和第二浮点输出之间的差异,对优化单元的权重量化增量进行更新;依据目标量化系数对优化单元的权重参数进行量化,并依据目标权重量化增量确定优化单元的权重量化取整方向;依据优化单元的目标量化权重参数对优化单元的输入数据进行前向推理计算,并依据优化单元的目标激活量化系数对优化单元的输入/输出进行量化。该方法可以提升任务处理的准确性。

    基于模型量化的任务处理方法、装置、设备及存储介质

    公开(公告)号:CN119647530A

    公开(公告)日:2025-03-18

    申请号:CN202411708331.0

    申请日:2022-09-27

    Abstract: 本申请提供一种基于模型量化的任务处理方法、装置、设备及存储介质,该基于模型量化的任务处理方法包括:依据Transformer模型中优化单元的第一量化输出和第一浮点输出之间的差异,对优化单元的权重量化系数和激活量化系数进行更新;依据优化单元的第二量化输出和第二浮点输出之间的差异,对优化单元的权重量化增量进行更新;依据目标量化系数对优化单元的权重参数进行量化,并依据目标权重量化增量确定优化单元的权重量化取整方向;依据优化单元的目标量化权重参数对优化单元的输入数据进行前向推理计算,并依据优化单元的目标激活量化系数对优化单元的输入/输出进行量化。该方法可以提升任务处理的准确性。

    基于大模型的推理方法及相关设备

    公开(公告)号:CN119358691A

    公开(公告)日:2025-01-24

    申请号:CN202411909532.7

    申请日:2024-12-24

    Abstract: 本申请公开了一种基于大模型的推理方法及相关设备,涉及人工智能技术领域,包括:响应于推理指令,获取场景图片数据,基于预设大语言模型相应粒度的量化方式,对所述场景图片数据执行量化操作,得到目标图像数据,基于更改部署方式后的所述预设大语言模型的推理量化流程,对所述目标图像数据进行推理量化,得到推理量化结果,其中,所述更改部署方式后所对应的推理量化流程比更改部署方式前推理量化流程的计算量更小。本申请使用计算量更小的推理量化流程所对应的部署方式部署预设大语言模型,减少推理量化过程中的计算量,提高推理效率。

Patent Agency Ranking