-
公开(公告)号:CN101826110A
公开(公告)日:2010-09-08
申请号:CN201010147527.9
申请日:2010-04-13
Applicant: 北京大学
Abstract: 本发明涉及一种BitTorrent种子文件爬取方法,属于计算机网络领域。本发明的方法为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。与现有技术相比,本发明可爬取的种子资源更全面、丰富,大大提高了种子文件库的种子资源。
-
公开(公告)号:CN101826110B
公开(公告)日:2011-12-21
申请号:CN201010147527.9
申请日:2010-04-13
Applicant: 北京大学
Abstract: 本发明涉及一种BitTorrent种子文件爬取方法,属于计算机网络领域。本发明的方法为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。与现有技术相比,本发明可爬取的种子资源更全面、丰富,大大提高了种子文件库的种子资源。
-