Patent search ap:("国家计算机网络与信息安全管理中心" OR "清华大学") AND inv:"陈健晖" Page 1

1.

发明公开
一种大模型安全神经元筛选方法和装置审中-公开

公开(公告)号：CN119990203A

公开(公告)日：2025-05-13

申请号：CN202411812196.4

申请日：2024-12-10

Applicant: 国家计算机网络与信息安全管理中心 , 清华大学

Inventor： 张翔宇 , 姜文华 , 张旭 , 侯磊 , 陈健晖 , 姚子俊 , 王晓智 , 李涓子

IPC: G06N3/06 , G06F18/2431

Abstract: 本发明提供一种大模型安全神经元筛选方法和装置，方法包括：对基础大模型进行安全对齐，得到安全对齐模型；计算所述安全对齐模型和所述基础大模型的神经元激活差异；基于所述神经元激活差异，确定对所述基础大模型进行安全对齐时的安全神经元。本发明从模型自身内部的性质出发，不受任务形式限制，容易扩展，适用于大模型中的安全神经元发现，为进一步研究大模型的安全机理提供方案。

Patent Agency Ranking