-
公开(公告)号:CN118468278A
公开(公告)日:2024-08-09
申请号:CN202410488875.4
申请日:2024-04-23
Applicant: 复旦大学
Abstract: 本发明属于人工智能多模态模型安全技术领域,具体为一种基于协同多模态交互的AI模型安全评估方法。本发明聚焦于黑盒迁移攻击,使用强有力的对抗攻击手段,对目标多模态模型进行攻击,以模型在受到攻击后的性能表现来进一步评估其安全性;具体包括:选定待攻击的源模型和目标模型,选定评估模型所需的待攻击图片以及文本,对选定的攻击图片和文本进行预处理,根据协同多模态交互算法生成图片以及文本的对抗样本,评估模型性能;在协同多模态交互过程中,融合嵌入两种策略:嵌入引导,利用多模态特征空间中的相似嵌入进行文本攻击;交互增强,利用交互攻击中的梯度信息,生成更鲁棒的对抗样本,进行更有效评估AI多模态模型的安全性能。