-
公开(公告)号:CN116383814A
公开(公告)日:2023-07-04
申请号:CN202310644147.3
申请日:2023-06-02
Applicant: 浙江大学
Abstract: 本发明公开了一种神经网络模型后门检测方法和系统,属于神经网络模型安全保护技术领域。将目标神经网络模型划分为特征提取器部分和分类器部分,定义特征提取器部分的输出为中间层表示;通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示;由分类器部分获取每一个源类别的中间层表示的分类置信度向量,预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵;根据分类置信度矩阵计算异常指标值,若异常指标值大于阈值,则判断目标神经网络模型存在后门,并定位后门的目标类别。本发明能够自动生成中间层表示而非依赖现成的辅助数据,且对于后门攻击的触发器形式不敏感,后门检测精度高,适用范围广。
-
公开(公告)号:CN117611968A
公开(公告)日:2024-02-27
申请号:CN202311543191.1
申请日:2023-11-20
Applicant: 浙江大学
IPC: G06V10/82 , G06V10/40 , G06V10/764 , G06N3/04
Abstract: 本发明公开了一种计算机视觉神经网络模型后门攻击清除方法和系统,应用于图像识别领域,属于神经网络模型安全保护技术领域。将待处理的视觉神经网络模型分为特征提取器部分和分类器部分;对于视觉神经网络模型的每个预测类别,利用视觉神经网络模型的特征提取器部分生成多个特征表示;使用生成的特征表示构建数据集,将每个特征表示作为一个样本,样本标签为其生成时所对应的预测类别;利用构建的数据集对视觉神经网络模型的分类器部分进行微调,以清除视觉神经网络模型的后门攻击。本发明自动生成特征表示以构建微调数据集,填补了当前没有非数据依赖的神经网络模型后门清除技术的空白。
-
公开(公告)号:CN116383814B
公开(公告)日:2023-09-15
申请号:CN202310644147.3
申请日:2023-06-02
Applicant: 浙江大学
Abstract: 本发明公开了一种神经网络模型后门检测方法和系统,属于神经网络模型安全保护技术领域。将目标神经网络模型划分为特征提取器部分和分类器部分,定义特征提取器部分的输出为中间层表示;通过最大化源类别的分类置信度的方式,逆向生成每一个源类别的中间层表示;由分类器部分获取每一个源类别的中间层表示的分类置信度向量,预处理每一个源类别的分类置信度向量,拼接得到分类置信度矩阵;根据分类置信度矩阵计算异常指标值,若异常指标值大于阈值,则判断目标神经网络模型存在后门,并定位后门的目标类别。本发明能够自动生成中间层表示而非依赖现成的辅助数据,且对于后门攻击的触发器形式不敏感,后门检测精度高,适用范围广。
-
-