防御文本分类模型后门攻击的方法、设备及介质

    公开(公告)号:CN115994352A

    公开(公告)日:2023-04-21

    申请号:CN202310280078.2

    申请日:2023-03-22

    Applicant: 暨南大学

    Abstract: 本发明公开一种防御文本分类模型后门攻击的方法、设备及介质,该方法包括以下步骤:随机选取数据集中的部分样本进行数据投毒,被投毒后的数据集定义为有毒数据集;在BERT网络的输出层后接上全连接层构成文本分类模型;将有毒数据集输入文本分类模型,按照有监督的方式对文本分类模型进行训练,将有毒数据集中训练损失值在预设范围内的样本隔离出来,判定为有毒样本,有毒数据集剩余的样本判定为干净样本;将有毒样本和干净样本输入文本分类模型。本发明的有益效果是:通过隔离出数据集中的小部分有毒样本,然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门,实现后门的去除。

    防御文本分类模型后门攻击的方法、设备及介质

    公开(公告)号:CN115994352B

    公开(公告)日:2023-06-02

    申请号:CN202310280078.2

    申请日:2023-03-22

    Applicant: 暨南大学

    Abstract: 本发明公开一种防御文本分类模型后门攻击的方法、设备及介质,该方法包括以下步骤:随机选取数据集中的部分样本进行数据投毒,被投毒后的数据集定义为有毒数据集;在BERT网络的输出层后接上全连接层构成文本分类模型;将有毒数据集输入文本分类模型,按照有监督的方式对文本分类模型进行训练,将有毒数据集中训练损失值在预设范围内的样本隔离出来,判定为有毒样本,有毒数据集剩余的样本判定为干净样本;将有毒样本和干净样本输入文本分类模型。本发明的有益效果是:通过隔离出数据集中的小部分有毒样本,然后利用有监督的混沌训练混淆文本分类模型在数据隔离步骤中被植入的后门,实现后门的去除。

Patent Agency Ranking