一种BBS页面自动采集方法
摘要:
本发明公开了一种BBS页面自动采集方法,包括以下步骤:步骤1,采集获取BBS页面所有元素信息;步骤2,交叉对比系统库中节点元素;步骤3,若节点名称相同,比较节点数量;步骤4,确定节点名称和节点数量都相同之后,交叉对比的两个节点标识为当前楼层节点;步骤5,记录楼层节点的XPath,完成帖子楼层的分割,楼层内容的XPath提取,实现通用信息采集。本发明通过自动解析html结构能够处理绝大部分的BBS站点,有效的提高了采集开发效率,优化了采集系统结构,简化采集处理流程,为大规模采集系统提供了新的高效解决方案。
公开/授权文献
0/0