-
公开(公告)号:CN115859102A
公开(公告)日:2023-03-28
申请号:CN202211524887.5
申请日:2022-11-30
Applicant: 浙江大学嘉兴研究院
IPC: G06F18/214 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于特征失真指数的模型窃取防御方法及装置,该方法包括:从目标DNN模型中选择每个类别预测置信度最高的K个数据作为锚定样本;计算每个待检测样本和锚定样本之间的特征空间距离以得到特征失真指数;利用所述特征失真指数训练模型窃取攻击检测器;将训练后的模型窃取攻击检测器布置到MLaaS中,以进行模型窃取防御。本申请针对攻击者为了从MLaaS平台的目标DNN模型中获取更多模型信息,通常需要探索大量的输入空间以增加窃取查询的多样性,来训练准确率更高的替代模型,因此攻击者的查询在特征层输出上的分布偏离良性的训练样本特征的这一现象,提出一种衡量被检测样本特征偏差的指标,即特征失真指数FDI,有效检测模型窃取攻击。