一种获取网页分块的标注规则的方法及装置

    公开(公告)号:CN103942224B

    公开(公告)日:2018-12-14

    申请号:CN201310024439.3

    申请日:2013-01-23

    Abstract: 本发明提供了一种获取网页分块的标注规则的方法及装置,其中所述方法包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。通过上述方式,本发明能够提高对网页分块进行标注的准确性。

    一种获取网页分块的标注规则的方法及装置

    公开(公告)号:CN103942224A

    公开(公告)日:2014-07-23

    申请号:CN201310024439.3

    申请日:2013-01-23

    CPC classification number: G06F17/30867

    Abstract: 本发明提供了一种获取网页分块的标注规则的方法及装置,其中所述方法包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。通过上述方式,本发明能够提高对网页分块进行标注的准确性。

Patent Agency Ranking