-
公开(公告)号:CN119884311A
公开(公告)日:2025-04-25
申请号:CN202411948089.4
申请日:2024-12-26
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F16/3329 , G06F40/186
Abstract: 本申请涉及一种可拓展的大语言模型越狱攻击方法、装置、介质和产品,方法包括:获取与越狱任务对应的第一提示,并根据问题模板生成所述第一提示的第一回答数据;根据与所述越狱任务对应的角色描述和/或情境描述、预设的格式需求,更新预设的第一提示模板中的写入内容;以所述第一回答数据为示例,结合第一提示模板中的所述角色描述和/或情境描述对所述第一提示进行转写,得到符合所述格式需求的第二提示;获取目标大语言模型基于所述第二提示生成的第二回答数据。采用本方法能够解决大语言模型应对越狱攻击时的安全边界的评估范围狭窄的问题。