-
公开(公告)号:CN119443167B
公开(公告)日:2025-04-08
申请号:CN202510032308.2
申请日:2025-01-09
Applicant: 安徽大学
IPC: G06N3/0495 , G06N3/063 , G06N3/045
Abstract: 本发明提供了一种面向Grounding DINO的量化推理加速方法及系统,属于计算机网络信息技术领域,方法包括:将待量化Grounding DINO模型中Linear层替换为W4Linear层,并获取待量化Grounding DINO模型的权重和权重矩阵的形状;根据权重矩阵的形状动态调整分组大小,基于分组大小对权重进行量化;对量化后的权重进行压缩,将待检测数据输入量化压缩后的Grounding DINO模型,模型基于W4A32行乘行去量化矩阵乘法推理出结果;解决Grounding DINO模型在资源受限的设备上部署时不能使用仅权重分组量化的问题,以及模型无法直接应用低位矩阵乘法内核的问题。
-
公开(公告)号:CN119443167A
公开(公告)日:2025-02-14
申请号:CN202510032308.2
申请日:2025-01-09
Applicant: 安徽大学
IPC: G06N3/0495 , G06N3/063 , G06N3/045
Abstract: 本发明提供了一种面向Grounding DINO的量化推理加速方法及系统,属于计算机网络信息技术领域,方法包括:将待量化Grounding DINO模型中Linear层替换为W4Linear层,并获取待量化Grounding DINO模型的权重和权重矩阵的形状;根据权重矩阵的形状动态调整分组大小,基于分组大小对权重进行量化;对量化后的权重进行压缩,将待检测数据输入量化压缩后的Grounding DINO模型,模型基于W4A32行乘行去量化矩阵乘法推理出结果;解决Grounding DINO模型在资源受限的设备上部署时不能使用仅权重分组量化的问题,以及模型无法直接应用低位矩阵乘法内核的问题。
-