一种面向Grounding DINO的量化推理加速方法及系统

    公开(公告)号:CN119443167B

    公开(公告)日:2025-04-08

    申请号:CN202510032308.2

    申请日:2025-01-09

    Applicant: 安徽大学

    Abstract: 本发明提供了一种面向Grounding DINO的量化推理加速方法及系统,属于计算机网络信息技术领域,方法包括:将待量化Grounding DINO模型中Linear层替换为W4Linear层,并获取待量化Grounding DINO模型的权重和权重矩阵的形状;根据权重矩阵的形状动态调整分组大小,基于分组大小对权重进行量化;对量化后的权重进行压缩,将待检测数据输入量化压缩后的Grounding DINO模型,模型基于W4A32行乘行去量化矩阵乘法推理出结果;解决Grounding DINO模型在资源受限的设备上部署时不能使用仅权重分组量化的问题,以及模型无法直接应用低位矩阵乘法内核的问题。

    一种面向Grounding DINO的量化推理加速方法及系统

    公开(公告)号:CN119443167A

    公开(公告)日:2025-02-14

    申请号:CN202510032308.2

    申请日:2025-01-09

    Applicant: 安徽大学

    Abstract: 本发明提供了一种面向Grounding DINO的量化推理加速方法及系统,属于计算机网络信息技术领域,方法包括:将待量化Grounding DINO模型中Linear层替换为W4Linear层,并获取待量化Grounding DINO模型的权重和权重矩阵的形状;根据权重矩阵的形状动态调整分组大小,基于分组大小对权重进行量化;对量化后的权重进行压缩,将待检测数据输入量化压缩后的Grounding DINO模型,模型基于W4A32行乘行去量化矩阵乘法推理出结果;解决Grounding DINO模型在资源受限的设备上部署时不能使用仅权重分组量化的问题,以及模型无法直接应用低位矩阵乘法内核的问题。

Patent Agency Ranking