-
公开(公告)号:CN103942224B
公开(公告)日:2018-12-14
申请号:CN201310024439.3
申请日:2013-01-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种获取网页分块的标注规则的方法及装置,其中所述方法包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。通过上述方式,本发明能够提高对网页分块进行标注的准确性。
-
公开(公告)号:CN103942224A
公开(公告)日:2014-07-23
申请号:CN201310024439.3
申请日:2013-01-23
Applicant: 百度在线网络技术(北京)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明提供了一种获取网页分块的标注规则的方法及装置,其中所述方法包括:A.获取一个以上的网页集合中节点的多页面信息,其中一个节点的多页面信息用于描述该节点在所属网页集合中的分布状况;B.从所述一个以上的网页集合中获取分块样本集;C.利用预设的种子标注规则对所述分块样本集进行标注,以得到训练样本集;D.确定所述训练样本集的分类特征,其中一个训练样本的分类特征至少包括由该训练样本所包含节点的多页面信息构成的多页面特征;E.根据确定的分类特征,对所述训练样本集进行机器学习,以得到机器标注规则。通过上述方式,本发明能够提高对网页分块进行标注的准确性。
-