Patent search ap:("杭州高新区(滨江)区块链与数据安全研究院" OR "浙江大学") AND inv:"齐巍巍" Page 1

1.

发明公开
基于迭代检测的大语言模型安全评估方法和系统审中-实审

公开(公告)号：CN119808100A

公开(公告)日：2025-04-11

申请号：CN202411974668.6

申请日：2024-12-30

Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学

Inventor： 郑天航 , 齐巍巍 , 顾威 , 任奎

IPC: G06F21/57 , G06N20/00

Abstract: 本申请涉及一种基于迭代检测的大语言模型安全评估方法和系统，该方法包括：基于预设的演示池和伪装策略，将原始提示构建为检测提示；演示池包括前缀演示池、后缀演示池、策略转换演示池及伪装演示池；将检测提示输入待检测模型，得到待检测模型对检测提示是否存在风险的识别结果；迭代更新识别结果中存在风险的检测提示；以及，根据识别结果中不存在风险的检测提示，迭代更新演示池。通过本申请，能够在对模型进行安全评估时采用迭代检测的方法，每次检测时动态构建检测提示，并且在检测后迭代更新检测提示和演示池，实现了一种更加灵活和适用性更高的安全评估方法。

Patent Agency Ranking