-
公开(公告)号:CN118171285A
公开(公告)日:2024-06-11
申请号:CN202410384100.2
申请日:2024-04-01
Applicant: 杭州榕数科技有限公司
Abstract: 本发明提供了一种基于角色扮演的大语言模型漏洞测试方法和装置,针对待测大语言模型收集可靠性测试准则;并调用了ChatGPT的API扮演了四个角色实现自动化对大语言模型的漏洞挖掘。在真实大语言模型上的实验结果表明,该方法具有良好的适用性,能够有效的评估大语言模型的安全性,更新后获得的游戏场景能够有效的使大语言模型偏离预期输出,暴露大语言模型的漏洞,实现高效的、可重复的、可更新的高效测试。
-
公开(公告)号:CN118192241A
公开(公告)日:2024-06-14
申请号:CN202410384099.3
申请日:2024-04-01
Applicant: 杭州榕数科技有限公司
IPC: G05B13/04
Abstract: 本发明公开了一种基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置,利用模拟学习自动驾驶决策模型Mo的目标策略πo,得到优化后的模型学习模型MI′L;利用模型对抗攻击技术对优化后的模型学习模型MI′L进行攻击,生成对抗状态集;对对抗状态集进行游离程度计算,得到对抗性训练样本集;随后利用对抗性训练样本集实现对自动驾驶决策模型Mo的对抗性训练,得到重训练模型MR,实现对自动驾驶决策模型Mo的安全性增强。实现黑盒模型下,模拟学习自动驾驶决策模型Mo的鲁棒性提升。
-