基于关键词导向的主题网络爬虫的数据搜集方法

    公开(公告)号:CN106339378A

    公开(公告)日:2017-01-18

    申请号:CN201510393801.3

    申请日:2015-07-07

    CPC classification number: G06F16/951

    Abstract: 本发明涉及一种基于关键词导向的主题网络爬虫的数据搜集方法。该方法的步骤包括:1)在网络爬虫的配置文件中设立主题信息的配置选项,包括主题关键词列表、各关键词相应的权重以及主题相关度分值阈值;2)对待爬取网页的内容进行解析,得到对应于所述主题关键词列表中各关键词的关键词出现次数,并根据各关键词的权重及其出现次数计算主题相关度分值;3)通过将当前网页链接的主题相关度分值与所设定的阈值进行比较,控制网络爬虫的链接扩散走向并实现数据搜集。本发明通过设定与主题相关的关键词,动态调整爬取走向,既保证了爬取的广度,又维持了爬取扩散的方向不脱离指定主题,能够更有效地收集最大范围的主题内容。

Patent Agency Ranking