Patent search ap:("北京信息科技大学") AND inv:"乔塬心" Page 1

1.

发明公开
一种基于对抗样本迁移的黑盒大语言模型测试方法审中-实审

公开(公告)号：CN119204158A

公开(公告)日：2024-12-27

申请号：CN202411240294.5

申请日：2024-09-05

Applicant: 北京信息科技大学

Inventor： 崔展齐 , 乔塬心

IPC: G06N3/094 , G06N3/0475 , G06N3/096 , G06N3/045

Abstract: 本发明公开了一种基于对抗样本迁移的黑盒大语言模型测试方法，涉及语言模型测试技术领域。包括：S1、获取原始样本以及源白盒LLM；S2、基于原始样本对源白盒LLM进行分析，得到用于测试具有相似功能的目标黑盒LLM的对抗样本；S3、对源白盒LLM进行注意力分析来确定原始样本中的重要元素；S4、对重要元素添加扰动，得到能有效触发错误的对抗样本；S5、基于S4中得到的对抗样本，进行迁移测试，并输出LLM的鲁棒性测试结果。本发明同时综合多个模型的内部输出信息提高对抗样本的泛化性，从而用于黑盒LLM模型的测试。相比于黑盒测试，无需对目标模型进行任何额外的查询，适用于目标模型查询受限的应用场景。

Patent Agency Ranking