一种基于对抗样本迁移的黑盒大语言模型测试方法

    公开(公告)号:CN119204158A

    公开(公告)日:2024-12-27

    申请号:CN202411240294.5

    申请日:2024-09-05

    Inventor: 崔展齐 乔塬心

    Abstract: 本发明公开了一种基于对抗样本迁移的黑盒大语言模型测试方法,涉及语言模型测试技术领域。包括:S1、获取原始样本以及源白盒LLM;S2、基于原始样本对源白盒LLM进行分析,得到用于测试具有相似功能的目标黑盒LLM的对抗样本;S3、对源白盒LLM进行注意力分析来确定原始样本中的重要元素;S4、对重要元素添加扰动,得到能有效触发错误的对抗样本;S5、基于S4中得到的对抗样本,进行迁移测试,并输出LLM的鲁棒性测试结果。本发明同时综合多个模型的内部输出信息提高对抗样本的泛化性,从而用于黑盒LLM模型的测试。相比于黑盒测试,无需对目标模型进行任何额外的查询,适用于目标模型查询受限的应用场景。

Patent Agency Ranking