-
公开(公告)号:CN114912524A
公开(公告)日:2022-08-16
申请号:CN202210520075.7
申请日:2022-05-13
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06K9/62 , G06F16/958 , G06F40/14
Abstract: 本申请涉及一种网站聚类方法、系统、计算机设备和存储介质,其中,该方法包括:对待聚类网站进行解析,得到对应的DOM树结构;提取DOM树结构的各类节点,根据DOM树结构的各类节点得到相应的匹配向量;基于匹配向量对待聚类网站进行聚类,得到聚类结果。通过本申请,解决了大量网站页面聚类时,相似度计算复杂的问题,实现了通过计算匹配向量的方案替代现有技术中通过复杂算法进行DOM树相似度计算方法,能够适用于大体量级的网站聚类问题,并且提高了聚类效率。
-
公开(公告)号:CN113656712A
公开(公告)日:2021-11-16
申请号:CN202110923780.7
申请日:2021-08-12
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F16/955 , H04L29/12
Abstract: 本申请涉及一种资产收集方法、装置、电子装置和存储介质,其中,该方法包括:获取目标网站的第一IP地址;从历史域名解析记录中获取与第一IP地址关联的历史解析域名,并建立第一IP地址与历史解析域名的映射关系;对映射关系中的历史解析域名进行脏数据处理,确定历史解析域名的有效第二IP地址;根据关联的历史解析域名和有效第二IP地址完成目标网站的资产收集。通过本申请,解决了相关技术中人工的资产收集方式效率低下,而且准确率不高的问题,实现了基于历史域名解析记录对目标网站进行扩展的资产收集,不仅提高资产收集效率,而且提高了准确率。
-
公开(公告)号:CN113656712B
公开(公告)日:2024-03-29
申请号:CN202110923780.7
申请日:2021-08-12
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F16/955 , H04L61/4511
Abstract: 本申请涉及一种资产收集方法、装置、电子装置和存储介质,其中,该方法包括:获取目标网站的第一IP地址;从历史域名解析记录中获取与第一IP地址关联的历史解析域名,并建立第一IP地址与历史解析域名的映射关系;对映射关系中的历史解析域名进行脏数据处理,确定历史解析域名的有效第二IP地址;根据关联的历史解析域名和有效第二IP地址完成目标网站的资产收集。通过本申请,解决了相关技术中人工的资产收集方式效率低下,而且准确率不高的问题,实现了基于历史域名解析记录对目标网站进行扩展的资产收集,不仅提高资产收集效率,而且提高了准确率。
-
公开(公告)号:CN114707096A
公开(公告)日:2022-07-05
申请号:CN202210329980.4
申请日:2022-03-31
Applicant: 杭州安恒信息技术股份有限公司
IPC: G06F16/958 , G06F16/953
Abstract: 本申请涉及互联网领域,公开了一种同源网站扩展的方法、装置及介质,包括:获取待扩展网站URL和任务相关参数,对待扩展网站URL发起HTTP或HTTPS请求得到响应信息,从响应信息中提取网站特征得到网站特征集合,并从网站特征集合中选取目标网站特征,并转换为网络空间搜索引擎可识别的查询字符串,网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性以确定待扩展网站对应的同源网站。由此,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取、转换和验证网站特征的低效率。
-
-
-