-
公开(公告)号:CN118940756A
公开(公告)日:2024-11-12
申请号:CN202411120043.3
申请日:2024-08-15
Applicant: 广州大学
IPC: G06F40/289 , G06N3/045 , G06F40/30
Abstract: 本发明提供了一种基于蜜点的大语言模型提示注入检测方法,涉及大语言模型内容安全技术领域。基于蜜点的大语言模型提示注入检测方法包括以下步骤:基于大语言模型的内容安全规定及提示注入库构建提示词蜜点,并将所述提示词蜜点部署在受保护模型的系统提示词库内;基于所述受保护模型获取针对多个用户指令的待检测文本,当所述用户指令为提示注入指令时所述提示词蜜点进行指令拦截,并基于所述内容安全规定检测所述待检测文本并输出检测结果。本发明通过研究提示注入指令以及大语言模型的内容安全规定构建提示词蜜点,并基于大语言模型自身的语义分析能力及提示词蜜点检测提示注入攻击,降低了防御成本、提高了提示注入检测成功率。
-
公开(公告)号:CN118736365A
公开(公告)日:2024-10-01
申请号:CN202410815520.1
申请日:2024-06-24
Applicant: 广州大学
IPC: G06V10/80 , G06V10/774 , G06V10/764 , G06V10/82 , G06V10/40 , G06N3/0464 , G06N3/08 , G06T1/00
Abstract: 本发明公开了一种基于图像特征融合的水印分类模型训练方法和系统,方法包括:获取训练数据集,所述训练数据集包括非目标类的干净图像和目标类的特征图像;对所述特征图像进行特征提取,得到所述特征图像对应的触发特征,并对所述干净图像进行特征提取,得到所述干净图像对应的内容特征;根据所述触发特征计算得到第一损失函数,根据所述内容特征计算得到第二损失函数,进而根据所述第一损失函数、所述第二损失函数以及结构相似指数生成所述干净图像对应的水印图像;根据所述水印图像和所述干净图像对预设的第一卷积神经网络进行训练,得到水印分类模型。本发明能够提高水印分类模型的鲁棒性,可广泛应用于人工智能技术领域。
-
公开(公告)号:CN118400185B
公开(公告)日:2024-08-23
申请号:CN202410822970.3
申请日:2024-06-25
Applicant: 广州大学
IPC: H04L9/40
Abstract: 本发明提供了一种针对模型反演攻击的检测方法,属于网络安全领域、人工智能安全领域,包括:随机生成初始蜜点,基于攻击者的行为逻辑检测初始蜜点是否符合要求,符合则输出为深度蜜点,否则更新初始蜜点;部署深度蜜点,获得受保护模型;检测深度蜜点状态,当深度蜜点被触发时,检测到模型反演攻击。本发明提供的一种针对模型反演攻击的检测方法可以在受保护模型功能不受明显影响的前提下提高针对模型反演攻击的检测能力和检测的准确性。
-
公开(公告)号:CN118400185A
公开(公告)日:2024-07-26
申请号:CN202410822970.3
申请日:2024-06-25
Applicant: 广州大学
IPC: H04L9/40
Abstract: 本发明提供了一种针对模型反演攻击的检测方法,属于网络安全领域、人工智能安全领域,包括:随机生成初始蜜点,基于攻击者的行为逻辑检测初始蜜点是否符合要求,符合则输出为深度蜜点,否则更新初始蜜点;部署深度蜜点,获得受保护模型;检测深度蜜点状态,当深度蜜点被触发时,检测到模型反演攻击。本发明提供的一种针对模型反演攻击的检测方法可以在受保护模型功能不受明显影响的前提下提高针对模型反演攻击的检测能力和检测的准确性。
-
-
-