一种被黑网站检测方法及系统

    公开(公告)号:CN107911360A

    公开(公告)日:2018-04-13

    申请号:CN201711115196.9

    申请日:2017-11-13

    Abstract: 本发明涉及一种被黑网站检测方法及系统,包括:(1)获取原始数据;(2)数据清洗;(3)分别抽取出文本检测、图片检测、启发式检测所需的数据;(4)查询文本检测的索引库,返回相似度值S1;(5)采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S2;(6)相似度值S1和相似性S2线性融合;(7)如果融合结果S≥T,则判定该网站没有被黑,标记为0;否则,判定该网站被黑,标记为1;(8)采用决策树模型对待检测网页进行判断,输出结果为0(未被黑)或1(被黑),如果(7)、(8)至少有一个为1,则表示网页被黑,否则网页正常。本发明采取两种方式检测,根据阈值判断,精确度更高,可及时发现互联网中一些恶意网页或被黑网页。

Patent Agency Ranking