基于迭代检测的大语言模型安全评估方法和系统

    公开(公告)号:CN119808100A

    公开(公告)日:2025-04-11

    申请号:CN202411974668.6

    申请日:2024-12-30

    Abstract: 本申请涉及一种基于迭代检测的大语言模型安全评估方法和系统,该方法包括:基于预设的演示池和伪装策略,将原始提示构建为检测提示;演示池包括前缀演示池、后缀演示池、策略转换演示池及伪装演示池;将检测提示输入待检测模型,得到待检测模型对检测提示是否存在风险的识别结果;迭代更新识别结果中存在风险的检测提示;以及,根据识别结果中不存在风险的检测提示,迭代更新演示池。通过本申请,能够在对模型进行安全评估时采用迭代检测的方法,每次检测时动态构建检测提示,并且在检测后迭代更新检测提示和演示池,实现了一种更加灵活和适用性更高的安全评估方法。

Patent Agency Ranking