一种基于视觉分块的网页LOGO提取系统及方法

    公开(公告)号:CN112084451B

    公开(公告)日:2022-09-30

    申请号:CN202010972271.9

    申请日:2020-09-16

    Abstract: 本发明是一种基于视觉分块的网页LOGO提取系统及方法,属于计算机网络领域,尤其涉及网页LOGO提取及视觉识别分析技术,目的是为解决网页视觉识别分析不稳定,准确率不高,实际应用效果不好等问题;本发明包括页面数据提取模块、分隔符探测模块和页面布局重构模块各模块之间呈递进逻辑连接,通过页面数据提取模块用于所需特征量的提取;分隔符探测模块负责分隔符的添加以及规则化分割;页面布局重构模块用于将页面内容重新布局重构,使得网页视觉识别率得到提高,该方法提取更为健壮的视觉特征,有更好的鲁棒性,同时具有更高的准确度。

    一种基于流量高频内容的模式匹配算法及系统

    公开(公告)号:CN113065419A

    公开(公告)日:2021-07-02

    申请号:CN202110291361.6

    申请日:2021-03-18

    Abstract: 本发明提出了一种基于流量高频内容的模式匹配算法及系统,涉及一种模式匹配算法,尤其涉及一种基于流量高频内容的模式匹配算法及系统。通过建立高频内容集和映射集的自动机,将当前扫描字符通过映射集与高频内容集进行匹配;映射集由高频内容集合中所有字符串的第一个字符去重后构成的集合。当访问自动机节点时,执行快速搜索以确定是否需要对高频内容集进行二次搜索。自动机扫描的过程从左往右扫描,自动机从根节点开始,扫描一个字符时匹配高频内容集的字符串,当扫描字符与高频内容集的字符串匹配时跳过高频内容,因此解决了现有技术中因忽略了流量中重复内容的特征导致的匹配效率低的问题,从而提升匹配效率。

    一种基于视觉分块的网页LOGO提取系统及方法

    公开(公告)号:CN112084451A

    公开(公告)日:2020-12-15

    申请号:CN202010972271.9

    申请日:2020-09-16

    Abstract: 本发明是一种基于视觉分块的网页LOGO提取系统及方法,属于计算机网络领域,尤其涉及网页LOGO提取及视觉识别分析技术,目的是为解决网页视觉识别分析不稳定,准确率不高,实际应用效果不好等问题;本发明包括页面数据提取模块、分隔符探测模块和页面布局重构模块各模块之间呈递进逻辑连接,通过页面数据提取模块用于所需特征量的提取;分隔符探测模块负责分隔符的添加以及规则化分割;页面布局重构模块用于将页面内容重新布局重构,使得网页视觉识别率得到提高,该方法提取更为健壮的视觉特征,有更好的鲁棒性,同时具有更高的准确度。

Patent Agency Ranking