发明授权
CN101561814B 基于社会标注的主题爬虫系统
失效 - 权利终止
- 专利标题: 基于社会标注的主题爬虫系统
- 专利标题(英): Topic crawler system based on social labels
-
申请号: CN200910062020.0申请日: 2009-05-08
-
公开(公告)号: CN101561814B公开(公告)日: 2012-05-09
- 发明人: 李瑞轩 , 文坤梅 , 赵勇 , 辜希武 , 卢正鼎 , 靳延安 , 丁益斌
- 申请人: 华中科技大学
- 申请人地址: 湖北省武汉市洪山区珞喻路1037号
- 专利权人: 华中科技大学
- 当前专利权人: 华中科技大学
- 当前专利权人地址: 湖北省武汉市洪山区珞喻路1037号
- 代理机构: 华中科技大学专利中心
- 代理商 曹葆青
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
一种基于社会标注的主题爬虫系统,包括页面获取模块,页面处理模块,相关度计算模块,存储模块,链接提取模块和链接分析模块。系统充分利用了网页的社会标注,是对页面内容公认的描述,更加贴近网页描述的真实内容,利用此性质来进行网页相关性的判断,将其应用在网络主题爬虫中,指导爬虫的爬行方向,对主题搜索引擎提供优质的网页数据内容。本发明很好地利用了网络带宽资源,在网页获取的过程中减少了不必要的开销,针对不同的需求采用不同的存储方式,减少了IO的消耗,采用了多级缓存机制,减少了阻塞,提高了爬虫的效率。该系统在社会标注的支撑下,优化了爬虫架构,为后续主题搜索引擎其他处理流程提供最佳的网页数据集。
公开/授权文献
- CN101561814A 基于社会标注的主题爬虫系统 公开/授权日:2009-10-21