-
公开(公告)号:CN115146056A
公开(公告)日:2022-10-04
申请号:CN202210542929.1
申请日:2022-05-18
Applicant: 哈尔滨工业大学(威海)
IPC: G06F16/35 , G06F40/289 , G06F40/242 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于网页文本内容检测色情赌博域名的方法,首先对域名发起HTTP请求,获取域名对应的HTTP文本内容,针对网页内容进行预处理,同时,构建色情、赌博、非色情赌博的三种语料库信息。针对语料库信息,进行分词处理,停用词处理等,构建算法模型的数据集信息。其次,使用语料库中的热点词汇对数据集进行编码处理,使用基于LSTM深度学习算法模型对数据编码进行处理,最后使用SoftMax三分类(色情、赌博、非色情赌博),输出结果。不仅可以解决传统黑名单检测方法中色情赌博域名频繁变更域名,不断扩充黑名单的问题,也能解决传统机器学习算法(SVM、随机森林等)人工提取文本特征的不充分,算法识别精度低等问题。