-
公开(公告)号:CN119203976B
公开(公告)日:2025-02-11
申请号:CN202411687242.2
申请日:2024-11-25
Applicant: 国家计算机网络与信息安全管理中心江苏分中心 , 中移(杭州)信息技术有限公司 , 中国移动通信集团江苏有限公司宿迁分公司
IPC: G06F40/186 , G06F16/957 , G06F16/958
Abstract: 本发明公开了一种基于结构感知的网页去重方法,属于安全、基础设施和IT支撑技术领域,包括:步骤1,网页采集;步骤2,对采集网页的URL进行解析,生成URL参数特征标签;步骤3,构建URL特征信息及差异分析结果映射表,对采集网页进行初始化对比和过滤,更新URL特征信息及差异分析结果映射表;步骤4,若采集网页未被过滤,根据URL特征信息及差异分析结果映射表对采集网页提取加权区域,计算采集网页的SimHash值;步骤5,根据采集网页的SimHash值和网页URL,判断采集网页是否存在相似网页,若存在相似网页,进行去重处理。该方法提高了去重效率和准确性,适用于对大规模网页数据进行高效、精准地去重处理。
-
公开(公告)号:CN119203976A
公开(公告)日:2024-12-27
申请号:CN202411687242.2
申请日:2024-11-25
Applicant: 国家计算机网络与信息安全管理中心江苏分中心 , 中移(杭州)信息技术有限公司 , 中国移动通信集团江苏有限公司宿迁分公司
IPC: G06F40/186 , G06F16/957 , G06F16/958
Abstract: 本发明公开了一种基于结构感知的网页去重方法,属于安全、基础设施和IT支撑技术领域,包括:步骤1,网页采集;步骤2,对采集网页的URL进行解析,生成URL参数特征标签;步骤3,构建URL特征信息及差异分析结果映射表,对采集网页进行初始化对比和过滤,更新URL特征信息及差异分析结果映射表;步骤4,若采集网页未被过滤,根据URL特征信息及差异分析结果映射表对采集网页提取加权区域,计算采集网页的SimHash值;步骤5,根据采集网页的SimHash值和网页URL,判断采集网页是否存在相似网页,若存在相似网页,进行去重处理。该方法提高了去重效率和准确性,适用于对大规模网页数据进行高效、精准地去重处理。
-