-
公开(公告)号:CN118349756B
公开(公告)日:2024-10-15
申请号:CN202410774673.6
申请日:2024-06-17
Applicant: 江苏省互联网行业管理服务中心
IPC: G06F16/955 , G06F16/958 , G06F16/33 , G06F16/35 , G06F18/2321
Abstract: 本发明公开了一种基于源码结构和资源链接的不良网站识别方法及系统,涉及信息安全技术领域。通过对源码和请求链接的抽取与清洗,减少了无效数据的干扰;通过文本预处理精准提取出能够代表网站特征的关键词和特征词;将多种特征综合表示,并通过降维减少数据维度,通过HDBSCAN聚类算法自动确定聚类的数量,并有效识别噪声点,生成稳定且准确的聚类结果,能够有效区分正常网站和不良网站;对新的网站数据,利用已有的聚类类型对网站进行标注和推断,或者输入批量网站进行重新聚类,对网站结构相似的网站进行标注,以识别新的不良网站模板,实现了对新网站的自动化标注和推断,适应动态变化的网络环境,提高了不良网站识别的准确性和及时性。
-
公开(公告)号:CN118349756A
公开(公告)日:2024-07-16
申请号:CN202410774673.6
申请日:2024-06-17
Applicant: 江苏省互联网行业管理服务中心
IPC: G06F16/955 , G06F16/958 , G06F16/33 , G06F16/35 , G06F18/2321
Abstract: 本发明公开了一种基于源码结构和资源链接的不良网站识别方法及系统,涉及信息安全技术领域。通过对源码和请求链接的抽取与清洗,减少了无效数据的干扰;通过文本预处理精准提取出能够代表网站特征的关键词和特征词;将多种特征综合表示,并通过降维减少数据维度,通过HDBSCAN聚类算法自动确定聚类的数量,并有效识别噪声点,生成稳定且准确的聚类结果,能够有效区分正常网站和不良网站;对新的网站数据,利用已有的聚类类型对网站进行标注和推断,或者输入批量网站进行重新聚类,对网站结构相似的网站进行标注,以识别新的不良网站模板,实现了对新网站的自动化标注和推断,适应动态变化的网络环境,提高了不良网站识别的准确性和及时性。
-