一种基于领域泛化的网络钓鱼URL检测方法及系统

    公开(公告)号:CN118264477A

    公开(公告)日:2024-06-28

    申请号:CN202410442453.3

    申请日:2024-04-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于领域泛化的网络钓鱼URL检测方法及系统,首先对URL字符串进行编码,得到URL数字向量;再应用两种数据生成技术生成良性URL和钓鱼URL,提高训练集的多样性;接着使用Encoder网络构建预训练模型,利用预训练模型学习良性URL字符间的语义关系,生成通用的URL嵌入;最后使用扩充后的数据集,对预训练模型进行微调,构建具有强大泛化能力钓鱼URL检测模型,实现网络钓鱼URL的检测。本发明方法能够实现对钓鱼URL的持久有效检测,即便当钓鱼URL特征分布发生显著变化时,模型的检测准确率依旧很高。

Patent Agency Ranking