针对视觉语言模型的对抗性知识蒸馏方法、系统及设备

    公开(公告)号:CN118334463A

    公开(公告)日:2024-07-12

    申请号:CN202410421826.9

    申请日:2024-04-09

    Applicant: 浙江大学

    Inventor: 况琨 杨津滦 吴飞

    Abstract: 本发明公开了一种针对视觉语言模型的对抗性知识蒸馏方法,包括:获取训练样本并对教师视觉语言模型进行微调,在预热阶段优化学生视觉语言模型的初始参数,在蒸馏过程中交替优化对抗样本生成器和学生视觉语言模型,最后将待检测的图像或者文本输入到优化后的学生视觉语言模型中,得到对应的检测结果。本发明通过设计对抗样本生成‑知识蒸馏匹配的交互式框架,统一了视觉模态与语言模态的对抗样本生成过程,可以产生促使教师视觉语言模型与学生视觉语言模型输出匹配的高质量对抗样本,从而提高学生视觉语言模型的性能与泛化能力。

Patent Agency Ranking