-
公开(公告)号:CN109543086A
公开(公告)日:2019-03-29
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN109543086B
公开(公告)日:2022-11-22
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN109241380A
公开(公告)日:2019-01-18
申请号:CN201810970733.6
申请日:2018-08-24
Applicant: 北京信息科技大学
IPC: G06F16/951
Abstract: 本发明公开了一种基于网络爬虫和新浪API相结合的微博数据的采集方法,基于新浪API从微博名人榜获取种子用户及其对应的粉丝用户和关注用户,加入到种子列表;将种子列表转换为种子URL,并判断种子用户列表是否为空,若为空则结束,否则遍历种子列表,采用网络爬虫的方法,爬取种子用户的相关微博信息、微博评论信息和用户个人信息,并将微博评论用户加入到种子列表中。与现有技术相比,本发明通过将新浪API和针对新浪微博平台的网络爬虫相结合,既可以获取格式比较规范的微博数据,又能进行大规模的数据爬取,并且爬取的数据格式更加规范,噪声数据比较少,进而能够为开展微博中社会安全事件的侦测提供重要的数据基础。
-
-