-
-
-
公开(公告)号:CN110457701A
公开(公告)日:2019-11-15
申请号:CN201910729584.9
申请日:2019-08-08
Applicant: 南京邮电大学
Abstract: 本发明公开了本发明是基于可解释性对抗文本的对抗训练方法;包括:(1)对输入的文本使用中和过滤器、去混淆过滤器和拼写检查进行处理,将所有的文本转为可读的文本,修改恶意拼写错误的单词;(2)构建文本分类模型,将经过拼写检查的输入和其对应的标签训练文本分类模型;(3)根据对抗样本生成的方法和初始的文本分类模型依次生成文本对抗样本;(4)利用生成的文本对抗样本和原始的样本,重新训练原始分类模型,得到可以防御对抗样本攻击的文本分类模型。利用本发明的方法,可以提高模型对恶意文本的检测效果,防止恶意文本的攻击。
-
-