-
公开(公告)号:CN119990203A
公开(公告)日:2025-05-13
申请号:CN202411812196.4
申请日:2024-12-10
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
IPC: G06N3/06 , G06F18/2431
Abstract: 本发明提供一种大模型安全神经元筛选方法和装置,方法包括:对基础大模型进行安全对齐,得到安全对齐模型;计算所述安全对齐模型和所述基础大模型的神经元激活差异;基于所述神经元激活差异,确定对所述基础大模型进行安全对齐时的安全神经元。本发明从模型自身内部的性质出发,不受任务形式限制,容易扩展,适用于大模型中的安全神经元发现,为进一步研究大模型的安全机理提供方案。