一种基于URL特征的网站首页识别方法及电子装置

    公开(公告)号:CN114201698A

    公开(公告)日:2022-03-18

    申请号:CN202010981078.1

    申请日:2020-09-17

    Abstract: 本发明提供一种基于URL特征的网站首页识别方法及电子装置,包括剔除待识别URL首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;按照“/”字符对临时变量t1进行拆分,并进行有效性判断;若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别URL为首页URL。本发明无需训练分类器、人工标注大量数据集及对URL页面内容进行分析,解决了通过语义无法识别嵌套URL的情况,降低了误报率,节省人力与网络资源,提升了识别速度。

    基于主被动结合的音视频网站用户入口标识方法及系统

    公开(公告)号:CN112347334A

    公开(公告)日:2021-02-09

    申请号:CN202011001392.5

    申请日:2020-09-22

    Abstract: 本发明公开一种主被动结合的音视频网站用户入口标识方法及系统,属于互联网信息技术领域,通过用户输入的域名查询全局节目标识表中是否存在该域名,如果不存在,则获取域名网站主页的候选子页面URL;通过主动访问,判断页面中是否存在音视频节目,提取所有包含音视频节目的子页面URL;根据候选子页面URL的数量及其与包含音视频节目的子页面URL的数量占比关系,判断该网站是否为音视频网站;如果是音视频网站,则获得节目标识,并将网站信息和节目标识更新至全局节目标识表中;如果不是,则将该网站信息更新至全局节目标识表中;将是否为音视频网站和音视频网站的节目标识作为查询结果返回给用户。

    基于主被动结合的音视频网站用户入口标识方法及系统

    公开(公告)号:CN112347334B

    公开(公告)日:2023-05-23

    申请号:CN202011001392.5

    申请日:2020-09-22

    Abstract: 本发明公开一种主被动结合的音视频网站用户入口标识方法及系统,属于互联网信息技术领域,通过用户输入的域名查询全局节目标识表中是否存在该域名,如果不存在,则获取域名网站主页的候选子页面URL;通过主动访问,判断页面中是否存在音视频节目,提取所有包含音视频节目的子页面URL;根据候选子页面URL的数量及其与包含音视频节目的子页面URL的数量占比关系,判断该网站是否为音视频网站;如果是音视频网站,则获得节目标识,并将网站信息和节目标识更新至全局节目标识表中;如果不是,则将该网站信息更新至全局节目标识表中;将是否为音视频网站和音视频网站的节目标识作为查询结果返回给用户。

Patent Agency Ranking