一种面向钓鱼URL检测的相似样本集构造方法

    公开(公告)号:CN107798080A

    公开(公告)日:2018-03-13

    申请号:CN201710952357.3

    申请日:2017-10-13

    Abstract: 本发明提供一种面向钓鱼URL检测的相似样本集构造方法,其步骤包括:提取已知样本集中的若干钓鱼URL分割为单词序列;以单词序列为列,网络钓鱼URL为行构造URL单词矩阵;从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词;以特征词为关键词搜索URL,并验证搜索到的URL是否正常,如是,则添加至训练样本集。构造与钓鱼URL强相似的正常URL,而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识,可以得到与已知钓鱼URL相近的正常URL训练样本集。从而,解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。

Patent Agency Ranking