-
公开(公告)号:CN104408101A
公开(公告)日:2015-03-11
申请号:CN201410663862.2
申请日:2014-11-19
Applicant: 南京大学
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明涉及一种Web信息抽取集成方法,属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。
-
公开(公告)号:CN103514292A
公开(公告)日:2014-01-15
申请号:CN201310465730.4
申请日:2013-10-09
Applicant: 南京大学
IPC: G06F17/30
CPC classification number: G06F17/2282 , G06F17/2765
Abstract: 本发明公开了一种基于小样本半监督学习的网页数据抽取方法,包括如下步骤:针对来自同一网页模板的相似性网页,选取一组样本网页,由用户手工选择并标注出需要抽取的数据项,称为标注数据项;根据标注数据项在DOM树上所对应的节点,称为标注节点,根据标注数据项在对应DOM树上的不同特征,构造一组关于该标注节点的初始候选特征集合;利用半监督式学习方法,确定初始候选特征集合中的最小关联性特征,推导出对该数据项泛化的抽取规则;对一个网页上拟抽取的每个数据项都进行规则推导,得到该网页上关于这组数据项的抽取规则;将抽取规则作用于相似性网页,抽取出一批数据。本发明能完成网页数据抽取规则的生成和网页数据的自动化抽取处理。
-