-
公开(公告)号:CN101446954B
公开(公告)日:2010-09-08
申请号:CN200810180826.5
申请日:2008-11-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术——转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分——视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。
-
公开(公告)号:CN101446954A
公开(公告)日:2009-06-03
申请号:CN200810180826.5
申请日:2008-11-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。
-
公开(公告)号:CN101436196A
公开(公告)日:2009-05-20
申请号:CN200810180823.1
申请日:2008-11-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。
-
公开(公告)号:CN101436196B
公开(公告)日:2010-12-08
申请号:CN200810180823.1
申请日:2008-11-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种自动动态更新论坛爬虫系统的构建方法,该方法包括下列步骤:(1)提取存储纯网页超链接;(2)判断话题网页位置;(3)检测话题网页新旧;(4)新话题网页处理;(5)旧话题网页处理;(6)纯网页超链接情况判断处理。通过应用本发明所描述的方法,可以有效地避免静态更新的弊端;可以自动实时地更新论坛网页;可以为搭建动态更新论坛爬虫系统提供通用的设计框架;更加迅速便利地实现系统开发,有效地降低系统开发成本。
-
公开(公告)号:CN101504665A
公开(公告)日:2009-08-12
申请号:CN200910080438.4
申请日:2009-03-18
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种防假死爬虫系统的构建方法,该方法包括下列步骤:(1)检测处理被请求网页;(2)检测处理网络响应;(3)检测处理存储空间;(4)重复执行步骤(1),(2)和(3),直到网页超链接全部处理完为止。通过应用本发明所描述的方法,可以有效地防止爬虫系统假死状态的发生;可以显著地减少爬虫系统等待时间和提高爬虫系统的爬抓效率;可以为搭建具有健壮性的爬虫系统提供通用的框架,有效地降低系统开发成本。
-
公开(公告)号:CN101295321A
公开(公告)日:2008-10-29
申请号:CN200810126457.1
申请日:2008-06-27
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种内部网可定制爬出系统构建方法,该方法包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。通过应用本发明所描述的方法,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架,有效地降低系统开发成本。
-
-
公开(公告)号:CN101436197A
公开(公告)日:2009-05-20
申请号:CN200810180824.6
申请日:2008-11-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,以及纯网页超链接供应器。通过应用本发明所描述的系统,可以有效地解决爬虫系统采集论坛数据大量冗余和凌乱无序的问题;可以为搭建论坛搜索引擎系统的重要组成部分——论坛数据采集系统提供通用可靠的搭建框架;显著降低论坛爬虫系统的开发难度,进一步有效地降低论坛搜索引擎系统开发成本。
-
公开(公告)号:CN101299219A
公开(公告)日:2008-11-05
申请号:CN200810126456.7
申请日:2008-06-27
Applicant: 北京邮电大学
Abstract: 本发明公开了一种多线程断点续传可定制内部网爬虫系统,包括以下部件:多线程产生器,断点续传器,超链接分析提取器,内部网分析器,超链接存储库,数据类型评判器,数据下载器,数据存储库,异常处理器,以及超链接提供器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架;可以避免爬虫的重复性爬取;显著提高爬虫系统应对突发事件的能力,进一步提高爬抓效率和爬抓速度,有效地降低系统开发成本。
-
公开(公告)号:CN101404026A
公开(公告)日:2009-04-08
申请号:CN200810180825.0
申请日:2008-11-25
Applicant: 北京邮电大学
IPC: G06F17/30
Abstract: 本发明公开了一种可预览视频搜索引擎的爬虫系统的构建方法,该方法包括下列步骤:(1)超链接映射成列表;(2)检测列表状态;(3)摘要图片处理;(4)视频处理;(5)视频标题处理。通过应用本发明所描述的方法,可以为可预览视频搜索引擎的爬虫系统提供通用的设计方法;可以为可预览视频搜索引擎提供预览型数据集,简化可预览视频搜索引擎的其他部分的设计和开发,大幅度地降低可预览视频搜索引擎爬虫系统和可预览视频搜索引擎的开发成本。
-
-
-
-
-
-
-
-
-