基于动态学习框架的全自动网页结构化数据抽取方法

    公开(公告)号:CN102831251A

    公开(公告)日:2012-12-19

    申请号:CN201210352614.7

    申请日:2012-09-20

    Abstract: 本发明涉及一种基于动态学习框架的全自动网页结构化数据抽取方法,包括:(A)可信属性集学习过程和(B)属性单元的发现和抽取过程。所述(A)可信属性集学习过程包括:①提取潜在属性单元;②获得候选属性集合;③产生可信属性集合。所述(B)属性单元的发现和抽取过程包括:④获取属性单元发现域;⑤获取网页结构化数据。本发明提出的方法与已有方法相比较,具有以下优点:①无需人工干预,可以大规模地用于现实网络中各种类别的网页属性信息的抽取。②能够适应多种不同的垂直域。③基于动态学习的框架,能够适应目标网页的变化,具有较高的灵活性。④抽取出的信息还可以为其它方面的研究提供数据,如知识库建立、本体研究、趋势预测等。

    基于DOM节点文本密度的网页核心块确定方法

    公开(公告)号:CN102184189A

    公开(公告)日:2011-09-14

    申请号:CN201110096132.5

    申请日:2011-04-18

    Abstract: 本发明涉及一种基于DOM节点文本密度的网页核心块确定方法,包括以下步骤:一、解析HTML网页,生成DOM树,使每一个HTML标签对应于DOM树中的一个节点,网页中的文字内容则是DOM树的叶子节点;二、为每个节点添加包含节点所包含的所有文本字符的个数、节点所包含的所有标签的个数、节点所包含的所有超链接文本字符个数、节点所包含的所有超链接个数的统计信息,并根据统计信息定义节点的文本密度;三、根据DOM树中节点的文本密度确定网页核心块。本发明可以在免受网页代码风格的影响及保留原始网页DOM结构的前提下,完整地提取出网页中的核心内容块。

    基于DOM节点文本密度的网页核心块确定方法

    公开(公告)号:CN102184189B

    公开(公告)日:2012-11-28

    申请号:CN201110096132.5

    申请日:2011-04-18

    Abstract: 本发明涉及一种基于DOM节点文本密度的网页核心块确定方法,包括以下步骤:一、解析HTML网页,生成DOM树,使每一个HTML标签对应于DOM树中的一个节点,网页中的文字内容则是DOM树的叶子节点;二、为每个节点添加包含节点所包含的所有文本字符的个数、节点所包含的所有标签的个数、节点所包含的所有超链接文本字符个数、节点所包含的所有超链接个数的统计信息,并根据统计信息定义节点的文本密度;三、根据DOM树中节点的文本密度确定网页核心块。本发明可以在免受网页代码风格的影响及保留原始网页DOM结构的前提下,完整地提取出网页中的核心内容块。

Patent Agency Ranking