-
公开(公告)号:CN119903524A
公开(公告)日:2025-04-29
申请号:CN202411959630.1
申请日:2024-12-27
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F21/57 , G06F18/2411 , G06F18/214 , G06F18/22
Abstract: 本申请涉及一种文本生成大模型的安全护栏增强方法、装置和计算机设备,其中,该方法包括:通过基于预设的训练数据集,对预定义的组合型护栏进行训练,训练过程为:通过组合型护栏中的每个护栏模型,对训练数据集中样本文本生成提示进行识别,得到每个护栏模型对应的输出结果;根据各输出结果,动态调整每个护栏模型对应的权重;通过训练后的组合型护栏对输入的文本生成提示进行处理,得到决策结果;决策结果由每个护栏模型对文本生成提示的处理结果,以及训练后每个护栏模型对应的权重确定。通过本申请,解决了大模型安全护栏防御能力不足,无法有效应对多样化的越狱攻击的问题,实现了提升大模型安全护栏防御能力,以有效应对多样化的越狱攻击。