-
公开(公告)号:CN108959413B
公开(公告)日:2020-09-11
申请号:CN201810581858.X
申请日:2018-06-07
Applicant: 吉林大学
IPC: G06F16/951 , G06F16/9535 , G06F16/955 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种主题网页爬取方法及主题爬虫系统,方法包括:从包括种子链接的第一待爬取链接集合中获取未爬取的链接;确定获取的链接对应的目标网页对应的第一相关度和第二相关度,第一相关度和第二相关度分别为目标网页中目标文本内容和目标链接与指定主题的相关度;根据第一相关度和第二相关度确定目标网页的温度值,并存储目标网页的待展示内容;若目标网页的温度值大于或等于预设温度值,将目标链接放入第二待爬取链接集合;若第一待爬取链接集合中不存在未获取过的链接,从第二待爬取链接集合中获取与指定主题相关度最高的未爬取的链接继续爬取。本申请使得用户可从网络上获取大量与指定主题相关的网页。
-
公开(公告)号:CN108959413A
公开(公告)日:2018-12-07
申请号:CN201810581858.X
申请日:2018-06-07
Applicant: 吉林大学
IPC: G06F17/30
Abstract: 本申请提供了一种主题网页爬取方法及主题爬虫系统,方法包括:从包括种子链接的第一待爬取链接集合中获取未爬取的链接;确定获取的链接对应的目标网页对应的第一相关度和第二相关度,第一相关度和第二相关度分别为目标网页中目标文本内容和目标链接与指定主题的相关度;根据第一相关度和第二相关度确定目标网页的温度值,并存储目标网页的待展示内容;若目标网页的温度值大于或等于预设温度值,将目标链接放入第二待爬取链接集合;若第一待爬取链接集合中不存在未获取过的链接,从第二待爬取链接集合中获取与指定主题相关度最高的未爬取的链接继续爬取。本申请使得用户可从网络上获取大量与指定主题相关的网页。
-