-
公开(公告)号:CN109543086B
公开(公告)日:2022-11-22
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN110543564A
公开(公告)日:2019-12-06
申请号:CN201910784200.3
申请日:2019-08-23
Applicant: 北京信息科技大学
Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题-短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。
-
公开(公告)号:CN111597316B
公开(公告)日:2023-12-01
申请号:CN202010409957.7
申请日:2020-05-15
Applicant: 北京信息科技大学
IPC: G06F16/332 , G06F16/33 , G06F16/9535 , G06F40/30
Abstract: 本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算,筛选出相关度最高的候选答案;第二阶段为:获取筛选出的候选答案LSTM双向输出的语义表示,利用问题的语义信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算,从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力,从而提升答案选取的准确率。
-
公开(公告)号:CN110543564B
公开(公告)日:2023-06-20
申请号:CN201910784200.3
申请日:2019-08-23
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/284 , G06F40/289 , G06Q10/0639
Abstract: 本发明提供一种基于主题模型的领域标签获取方法,在海量学术数据的基础上,分析学术数据固有的特点,引入学术词频特征构建FLDA主题模型,利用主题模型将同一学者的学术文档进行“主题‑短语”抽取。其次,引入领域体系,将主题模型的抽取结果与体系标签进行向量表征,经过位置加权后使用相似度进行体系映射,最终获得学者的领域标签。实验表明,FLDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的TextRank算法相比,最终获取的标签词效果更好,准确率更高,说明基于主题模型的标签抽取方法在学术领域具有良好的适用性。
-
公开(公告)号:CN109543086A
公开(公告)日:2019-03-29
申请号:CN201811413106.9
申请日:2018-11-23
Applicant: 北京信息科技大学
IPC: G06F16/951 , G06F16/955
Abstract: 本发明公开了一种面向多数据源的网络数据采集与展示方法,在研究新浪微博、人民日报、百度百科、百度贴吧、微信公众号、东方财富股吧等六类媒体平台数据采集策略的基础上,采用Servlet后台调度技术,将面向多数据源的网络爬虫进行融合,解决了面向不同媒体平台的数据采集问题。在实现过程中,首先借助Web应用程序测试工具包Selenium实现模拟登录等人工操作,然后采用Xpath元素查询技术来解析网页源码,提取出数据信息存入数据库,最后将爬取到的数据从数据库中读取出来并展示在前端页面中。实验表明,爬虫在保证数据完整性的前提下实现了采集效率的最大化。
-
公开(公告)号:CN111597316A
公开(公告)日:2020-08-28
申请号:CN202010409957.7
申请日:2020-05-15
Applicant: 北京信息科技大学
IPC: G06F16/332 , G06F16/33 , G06F16/9535 , G06F40/30
Abstract: 本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算,筛选出相关度最高的候选答案;第二阶段为:获取筛选出的候选答案LSTM双向输出的语义表示,利用问题的语义信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示再次与问题的语义表示进行相关度计算,从候选答案中选取最佳答案。本发明可加强模型对候选答案关键信息的捕获能力,从而提升答案选取的准确率。
-
-
-
-
-