发明公开
- 专利标题: 一种BBS页面自动采集方法
- 专利标题(英): Automatic BBS (bulletin board system) page acquisition method
-
申请号: CN201410684169.3申请日: 2014-11-25
-
公开(公告)号: CN104331512A公开(公告)日: 2015-02-04
- 发明人: 沈文凯 , 瞿伟
- 申请人: 烽火通信科技股份有限公司
- 申请人地址: 江苏省南京市建邺区云龙山路88号烽火科技大厦A栋26F
- 专利权人: 烽火通信科技股份有限公司
- 当前专利权人: 南京烽火星空通信发展有限公司
- 当前专利权人地址: 江苏省南京市建邺区云龙山路88号烽火科技大厦A栋26F
- 代理机构: 南京经纬专利商标代理有限公司
- 代理商 杨海军
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种BBS页面自动采集方法,包括以下步骤:步骤1,采集获取BBS页面所有元素信息;步骤2,交叉对比系统库中节点元素;步骤3,若节点名称相同,比较节点数量;步骤4,确定节点名称和节点数量都相同之后,交叉对比的两个节点标识为当前楼层节点;步骤5,记录楼层节点的XPath,完成帖子楼层的分割,楼层内容的XPath提取,实现通用信息采集。本发明通过自动解析html结构能够处理绝大部分的BBS站点,有效的提高了采集开发效率,优化了采集系统结构,简化采集处理流程,为大规模采集系统提供了新的高效解决方案。
公开/授权文献
- CN104331512B 一种BBS页面自动采集方法 公开/授权日:2017-10-20