一种基于html网页的数据抽取系统

    公开(公告)号:CN103309954A

    公开(公告)日:2013-09-18

    申请号:CN201310200116.5

    申请日:2013-05-27

    Applicant: 复旦大学

    Abstract: 本发明属于计算机网络技术领域,具体为一种基于html网页的数据抽取系统。其由xml解析器,html引擎以及数据管理器三个模块组成。本发明的优点在于:只需要在xml文件中描述html网页中哪些节点信息需要抓取,以及xml中其他一些配置信息,就可以快速的抓取所需要的数据,其方法简单、快捷。

Patent Agency Ranking