-
公开(公告)号:CN106384292A
公开(公告)日:2017-02-08
申请号:CN201610823149.9
申请日:2016-09-14
Applicant: 哈尔滨工业大学(威海)
CPC classification number: G06Q50/01 , G06F16/951
Abstract: 本发明公开了一种社交网络用户关系采集系统与方法,该系统包括:分布式爬虫模块与任务队列模块。其中,任务队列模块包含爬取优先级依次增加的Super队列、Normal队列、Big队列。分布式爬虫模块用于将用户ID按照关系网规模从小到大的顺序分别存放在Normal队列、Big队列、Super队列,并按照所述爬取优先级爬取用户关系数据。本发明根据关系网规模将任务进行等级划分,不同等级的任务按照不同的执行优先级爬取,这样不仅具有控制爬取层数的功能,还可以保证关系网爬取时能够快速收敛。