-
公开(公告)号:CN118349756B
公开(公告)日:2024-10-15
申请号:CN202410774673.6
申请日:2024-06-17
Applicant: 江苏省互联网行业管理服务中心
IPC: G06F16/955 , G06F16/958 , G06F16/33 , G06F16/35 , G06F18/2321
Abstract: 本发明公开了一种基于源码结构和资源链接的不良网站识别方法及系统,涉及信息安全技术领域。通过对源码和请求链接的抽取与清洗,减少了无效数据的干扰;通过文本预处理精准提取出能够代表网站特征的关键词和特征词;将多种特征综合表示,并通过降维减少数据维度,通过HDBSCAN聚类算法自动确定聚类的数量,并有效识别噪声点,生成稳定且准确的聚类结果,能够有效区分正常网站和不良网站;对新的网站数据,利用已有的聚类类型对网站进行标注和推断,或者输入批量网站进行重新聚类,对网站结构相似的网站进行标注,以识别新的不良网站模板,实现了对新网站的自动化标注和推断,适应动态变化的网络环境,提高了不良网站识别的准确性和及时性。
-
公开(公告)号:CN116796251A
公开(公告)日:2023-09-22
申请号:CN202311078357.7
申请日:2023-08-25
Applicant: 江苏省互联网行业管理服务中心
IPC: G06F18/241 , G06F18/22 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及网络安全技术领域,具体涉及一种基于图文多模态的不良网站分类方法、系统及设备,对网页截图和网站meta标题进行特征提取和相似度计算,通过InfoNCE损失函数优化CLIP模型,采用基于本体的随机抽样进行CLIP模型训练,融合图、文两个模态的特征,根据融合的特征对不良网站进行分类,可以提高网站分类的准确性和覆盖率;采用小批量训练抽样方式,仅需要约1%的数据即可达到相似的训练效果,同时不需要人工标注大量的训练数据和大型的TPU计算机器,也不需要针对不同语言或主题设计特定的分类规则或词典,可以提高网站分类的效率和可实现性;可针对无法使用OCR技术分析出的图片进行分析和明确分类。
-
公开(公告)号:CN118349756A
公开(公告)日:2024-07-16
申请号:CN202410774673.6
申请日:2024-06-17
Applicant: 江苏省互联网行业管理服务中心
IPC: G06F16/955 , G06F16/958 , G06F16/33 , G06F16/35 , G06F18/2321
Abstract: 本发明公开了一种基于源码结构和资源链接的不良网站识别方法及系统,涉及信息安全技术领域。通过对源码和请求链接的抽取与清洗,减少了无效数据的干扰;通过文本预处理精准提取出能够代表网站特征的关键词和特征词;将多种特征综合表示,并通过降维减少数据维度,通过HDBSCAN聚类算法自动确定聚类的数量,并有效识别噪声点,生成稳定且准确的聚类结果,能够有效区分正常网站和不良网站;对新的网站数据,利用已有的聚类类型对网站进行标注和推断,或者输入批量网站进行重新聚类,对网站结构相似的网站进行标注,以识别新的不良网站模板,实现了对新网站的自动化标注和推断,适应动态变化的网络环境,提高了不良网站识别的准确性和及时性。
-
-