Patent search ap:("北京信息科技大学") AND inv:"曾健荣" Page 1

1.

发明公开
一种面向多数据源的网络数据采集与展示方法有权

公开(公告)号：CN109543086A

公开(公告)日：2019-03-29

申请号：CN201811413106.9

申请日：2018-11-23

Applicant: 北京信息科技大学

Inventor： 张仰森 , 曾健荣 , 陈若愚 , 黄改娟 , 王胜

IPC: G06F16/951 , G06F16/955

Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法，在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上，采用Servlet后台调度技术，将面向多数据源的网络爬虫进行融合，解决了面向不同媒体平台的数据采集问题。在实现过程中，首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作，然后采用Xpath元素查询技术来解析网页源码，提取出数据信息存入数据库，最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明，爬虫在保证数据完整性的前提下实现了采集效率的最大化。

2.

发明授权
一种面向多数据源的网络数据采集与展示方法有权

公开(公告)号：CN109543086B

公开(公告)日：2022-11-22

申请号：CN201811413106.9

申请日：2018-11-23

Applicant: 北京信息科技大学

Inventor： 张仰森 , 曾健荣 , 陈若愚 , 黄改娟 , 王胜

IPC: G06F16/951 , G06F16/955

Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法，在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上，采用Servlet后台调度技术，将面向多数据源的网络爬虫进行融合，解决了面向不同媒体平台的数据采集问题。在实现过程中，首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作，然后采用Xpath元素查询技术来解析网页源码，提取出数据信息存入数据库，最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明，爬虫在保证数据完整性的前提下实现了采集效率的最大化。

3.

发明公开
一种基于网络爬虫和新浪API相结合的微博数据的采集方法无效

公开(公告)号：CN109241380A

公开(公告)日：2019-01-18

申请号：CN201810970733.6

申请日：2018-08-24

Applicant: 北京信息科技大学

Inventor： 张仰森 , 黄改娟 , 段瑞雪 , 张良 , 曾健荣

IPC: G06F16/951

Abstract: 本发明公开了一种基于网络爬虫和新浪API相结合的微博数据的采集方法，基于新浪API从微博名人榜获取种子用户及其对应的粉丝用户和关注用户，加入到种子列表；将种子列表转换为种子URL，并判断种子用户列表是否为空，若为空则结束，否则遍历种子列表，采用网络爬虫的方法，爬取种子用户的相关微博信息、微博评论信息和用户个人信息，并将微博评论用户加入到种子列表中。与现有技术相比，本发明通过将新浪API和针对新浪微博平台的网络爬虫相结合，既可以获取格式比较规范的微博数据，又能进行大规模的数据爬取，并且爬取的数据格式更加规范，噪声数据比较少，进而能够为开展微博中社会安全事件的侦测提供重要的数据基础。

Patent Agency Ranking