针对多记录网页的记录项抽取系统及方法

    公开(公告)号:CN104217025B

    公开(公告)日:2018-04-13

    申请号:CN201410503955.9

    申请日:2014-09-28

    Applicant: 福州大学

    Abstract: 本发明涉及一种针对多记录网页的记录项抽取系统及方法,该系统包括:记录树对齐模块,接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;记录内容抽取模块,使用文本密度及文本密度和度量指标确定记录中记录内容位置;记录项输出模块,将记录区域里所有记录项及其语义标注按照树节点先序遍历输出;反馈框架,在抽取记录项后利用抽取结果检查记录区域定位是否正确,不正确则重新定位记录区域,进而修改记录项抽取结果,正确则直接结束抽取流程。该系统及方法能够高效、准确地对多记录网页中记录区域进行记录项抽取,抽取速度快、准确度高,通用性强,适用范围广。

    一种多记录网页的信息抽取系统及方法

    公开(公告)号:CN103761312A

    公开(公告)日:2014-04-30

    申请号:CN201410034376.4

    申请日:2014-01-24

    Applicant: 福州大学

    CPC classification number: G06F17/30864 G06F17/30908

    Abstract: 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

    一种多记录网页的信息抽取系统及方法

    公开(公告)号:CN103761312B

    公开(公告)日:2017-02-08

    申请号:CN201410034376.4

    申请日:2014-01-24

    Applicant: 福州大学

    Abstract: 本发明涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。

    针对多记录网页的记录项抽取系统及方法

    公开(公告)号:CN104217025A

    公开(公告)日:2014-12-17

    申请号:CN201410503955.9

    申请日:2014-09-28

    Applicant: 福州大学

    CPC classification number: G06F17/30864 G06F17/2785

    Abstract: 本发明涉及一种针对多记录网页的记录项抽取系统及方法,该系统包括:记录树对齐模块,接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;记录内容抽取模块,使用文本密度及文本密度和度量指标确定记录中记录内容位置;记录项输出模块,将记录区域里所有记录项及其语义标注按照树节点先序遍历输出;反馈框架,在抽取记录项后利用抽取结果检查记录区域定位是否正确,不正确则重新定位记录区域,进而修改记录项抽取结果,正确则直接结束抽取流程。该系统及方法能够高效、准确地对多记录网页中记录区域进行记录项抽取,抽取速度快、准确度高,通用性强,适用范围广。

Patent Agency Ranking