- 专利标题: 一种新闻列表页判断方法及筛选新闻列表页的方法
-
申请号: CN201410382359.X申请日: 2014-08-06
-
公开(公告)号: CN104182482B公开(公告)日: 2018-05-22
- 发明人: 刘晓娜 , 张凯 , 程学旗 , 刘悦 , 张瑾 , 余智华
- 申请人: 中国科学院计算技术研究所
- 申请人地址: 北京市海淀区中关村科学院南路6号
- 专利权人: 中国科学院计算技术研究所
- 当前专利权人: 中国科学院计算技术研究所
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号
- 代理机构: 北京泛华伟业知识产权代理有限公司
- 代理商 王勇; 李科
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
公开/授权文献
- CN104182482A 一种新闻列表页判断方法及筛选新闻列表页的方法 公开/授权日:2014-12-03