文本生成大模型的安全护栏增强方法、装置和计算机设备

    公开(公告)号:CN119903524A

    公开(公告)日:2025-04-29

    申请号:CN202411959630.1

    申请日:2024-12-27

    Abstract: 本申请涉及一种文本生成大模型的安全护栏增强方法、装置和计算机设备,其中,该方法包括:通过基于预设的训练数据集,对预定义的组合型护栏进行训练,训练过程为:通过组合型护栏中的每个护栏模型,对训练数据集中样本文本生成提示进行识别,得到每个护栏模型对应的输出结果;根据各输出结果,动态调整每个护栏模型对应的权重;通过训练后的组合型护栏对输入的文本生成提示进行处理,得到决策结果;决策结果由每个护栏模型对文本生成提示的处理结果,以及训练后每个护栏模型对应的权重确定。通过本申请,解决了大模型安全护栏防御能力不足,无法有效应对多样化的越狱攻击的问题,实现了提升大模型安全护栏防御能力,以有效应对多样化的越狱攻击。

Patent Agency Ranking