-
公开(公告)号:CN119203976B
公开(公告)日:2025-02-11
申请号:CN202411687242.2
申请日:2024-11-25
Applicant: 国家计算机网络与信息安全管理中心江苏分中心 , 中移(杭州)信息技术有限公司 , 中国移动通信集团江苏有限公司宿迁分公司
IPC: G06F40/186 , G06F16/957 , G06F16/958
Abstract: 本发明公开了一种基于结构感知的网页去重方法,属于安全、基础设施和IT支撑技术领域,包括:步骤1,网页采集;步骤2,对采集网页的URL进行解析,生成URL参数特征标签;步骤3,构建URL特征信息及差异分析结果映射表,对采集网页进行初始化对比和过滤,更新URL特征信息及差异分析结果映射表;步骤4,若采集网页未被过滤,根据URL特征信息及差异分析结果映射表对采集网页提取加权区域,计算采集网页的SimHash值;步骤5,根据采集网页的SimHash值和网页URL,判断采集网页是否存在相似网页,若存在相似网页,进行去重处理。该方法提高了去重效率和准确性,适用于对大规模网页数据进行高效、精准地去重处理。
-
公开(公告)号:CN119203976A
公开(公告)日:2024-12-27
申请号:CN202411687242.2
申请日:2024-11-25
Applicant: 国家计算机网络与信息安全管理中心江苏分中心 , 中移(杭州)信息技术有限公司 , 中国移动通信集团江苏有限公司宿迁分公司
IPC: G06F40/186 , G06F16/957 , G06F16/958
Abstract: 本发明公开了一种基于结构感知的网页去重方法,属于安全、基础设施和IT支撑技术领域,包括:步骤1,网页采集;步骤2,对采集网页的URL进行解析,生成URL参数特征标签;步骤3,构建URL特征信息及差异分析结果映射表,对采集网页进行初始化对比和过滤,更新URL特征信息及差异分析结果映射表;步骤4,若采集网页未被过滤,根据URL特征信息及差异分析结果映射表对采集网页提取加权区域,计算采集网页的SimHash值;步骤5,根据采集网页的SimHash值和网页URL,判断采集网页是否存在相似网页,若存在相似网页,进行去重处理。该方法提高了去重效率和准确性,适用于对大规模网页数据进行高效、精准地去重处理。
-
公开(公告)号:CN113407885A
公开(公告)日:2021-09-17
申请号:CN202110701092.6
申请日:2021-06-23
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
IPC: G06F16/958 , G06F11/32 , G06F16/951 , G06F16/953 , G06K9/62
Abstract: 本申请公开了一种XPath数据篡改告警方法、装置、设备及可读存储介质,该方法包括步骤:获取网页中发生变化的过滤前XPath数据;基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;输出所述目标XPath数据对应的篡改告警信息。通过预设易变区过滤器对过滤前XPath数据进行过滤,得到目标XPath数据,使得过滤前XPath数据中的网页更新数据被过滤,并输出目标XPath数据对应的篡改告警信息,避免了直接输出网页中发生变化的过滤前XPath数据对应的篡改告警信息,使得避免了网页更新数据对应的告警误报,从而降低了网页篡改告警时的误报率。
-
公开(公告)号:CN111193617B
公开(公告)日:2022-10-18
申请号:CN201911302614.4
申请日:2019-12-17
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
IPC: H04L41/0604 , H04L41/147 , H04L41/14 , H04L41/142 , H04L9/40
Abstract: 本发明实施例涉及IT应用技术领域,公开了一种网页篡改识别方法、装置、电子设备及存储介质。该方法获取待监测网站的所有XPath的信息;基于所有XPath的信息,初始化泊松分布概率预测模型中的多个参数值;基于初始化的多个参数值,计算在监测时间段内所述待监测网站发生变动的第一概率,及每条XPath发生变动的第二概率;将所述第一概率与第一阈值比较,每条XPath发生变动的第二概率与第二阈值比较,确定每条XPath对应的告警信息。本发明能够将网页篡改信息安全事件与泊松分布模型有效的结合对网页的变动准确预测,从而降低了整个系统的误报率。
-
公开(公告)号:CN113595819A
公开(公告)日:2021-11-02
申请号:CN202110834284.4
申请日:2021-07-22
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
IPC: H04L12/26 , H04L12/24 , H04L29/08 , H04L29/12 , G06F16/904
Abstract: 本发明公开了一种网站健康检测方法、装置、设备以及计算机可读存储介质,所述方法包括:接收用户的拨测请求,将所述拨测请求对应的拨测任务发送至网站对应的各个拨测服务器,各个所述拨测服务器的位置不同以及覆盖的网络不同;在预设时长内,接收所述拨测服务器根据所述拨测任务返回的拨测结果;根据网站的各个拨测服务器的所述拨测结果确定所述网站的健康检测结果。本发明提高了网站的健康检测结果的准确度。
-
公开(公告)号:CN113595819B
公开(公告)日:2024-05-07
申请号:CN202110834284.4
申请日:2021-07-22
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
IPC: H04L43/0805 , H04L43/0817 , H04L43/0852 , H04L43/50 , H04L41/14 , H04L67/02 , H04L61/4511 , G06F16/904
Abstract: 本发明公开了一种网站健康检测方法、装置、设备以及计算机可读存储介质,所述方法包括:接收用户的拨测请求,将所述拨测请求对应的拨测任务发送至网站对应的各个拨测服务器,各个所述拨测服务器的位置不同以及覆盖的网络不同;在预设时长内,接收所述拨测服务器根据所述拨测任务返回的拨测结果;根据网站的各个拨测服务器的所述拨测结果确定所述网站的健康检测结果。本发明提高了网站的健康检测结果的准确度。
-
公开(公告)号:CN113407885B
公开(公告)日:2024-04-12
申请号:CN202110701092.6
申请日:2021-06-23
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
IPC: G06F16/958 , G06F11/32 , G06F16/951 , G06F16/953 , G06F18/214
Abstract: 本申请公开了一种XPath数据篡改告警方法、装置、设备及可读存储介质,该方法包括步骤:获取网页中发生变化的过滤前XPath数据;基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;输出所述目标XPath数据对应的篡改告警信息。通过预设易变区过滤器对过滤前XPath数据进行过滤,得到目标XPath数据,使得过滤前XPath数据中的网页更新数据被过滤,并输出目标XPath数据对应的篡改告警信息,避免了直接输出网页中发生变化的过滤前XPath数据对应的篡改告警信息,使得避免了网页更新数据对应的告警误报,从而降低了网页篡改告警时的误报率。
-
公开(公告)号:CN111193617A
公开(公告)日:2020-05-22
申请号:CN201911302614.4
申请日:2019-12-17
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
Abstract: 本发明实施例涉及IT应用技术领域,公开了一种网页篡改识别方法、装置、电子设备及存储介质。该方法获取待监测网站的所有XPath的信息;基于所有XPath的信息,初始化泊松分布概率预测模型中的多个参数值;基于初始化的多个参数值,计算在监测时间段内所述待监测网站发生变动的第一概率,及每条XPath发生变动的第二概率;将所述第一概率与第一阈值比较,每条XPath发生变动的第二概率与第二阈值比较,确定每条XPath对应的告警信息。本发明能够将网页篡改信息安全事件与泊松分布模型有效的结合对网页的变动准确预测,从而降低了整个系统的误报率。
-
公开(公告)号:CN111159775A
公开(公告)日:2020-05-15
申请号:CN201911269396.9
申请日:2019-12-11
Applicant: 中移(杭州)信息技术有限公司 , 中国移动通信集团有限公司
IPC: G06F21/64 , G06F16/955 , G06F16/958 , H04L29/06
Abstract: 本发明实施例涉及互联网应用领域,公开了一种网页篡改检测方法。本发明将网页源代码与所述网页源代码对应的标准源代码进行哈希值对比得到哈希值对比结果,若所述哈希值对比结果完全相同,则所述网页源代码未发生网页篡改,若所述哈希值对比结果不相同,则所述网页源代码发生网页篡改,判断所述对比结果不相同的哈希值所对应的网页篡改类型,并采用与所述网页篡改类型对应的网页检测方法检测所述网页源代码得到篡改结果,根据所述篡改结果运行预先构建的网页篡改告警优化程序进行篡改播报。本发明还提出一种网页篡改的检测电子设备、装置以及计算机可读存储介质。本发明可有效的检测到网页篡改类型,减少网页篡改误报的问题。
-
-
-
-
-
-
-
-