一种识别网页类型的系统和方法

    公开(公告)号:CN103544210B

    公开(公告)日:2017-01-18

    申请号:CN201310391961.5

    申请日:2013-09-02

    Abstract: 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。

    一种识别网页类型的系统和方法

    公开(公告)号:CN103544210A

    公开(公告)日:2014-01-29

    申请号:CN201310391961.5

    申请日:2013-09-02

    CPC classification number: G06F17/30876

    Abstract: 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。

Patent Agency Ranking