一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713B

    公开(公告)日:2022-02-08

    申请号:CN201910916820.8

    申请日:2019-09-26

    IPC分类号: G06F16/951 G06F16/955

    摘要: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713A

    公开(公告)日:2020-01-17

    申请号:CN201910916820.8

    申请日:2019-09-26

    IPC分类号: G06F16/951 G06F16/955

    摘要: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种基于协同网络表示学习的电信异常检测方法

    公开(公告)号:CN109474756A

    公开(公告)日:2019-03-15

    申请号:CN201811367747.5

    申请日:2018-11-16

    CPC分类号: H04M3/2281 H04W12/12

    摘要: 本发明公开了一种基于协同网络表示学习的电信异常检测方法,属于数据挖掘与机器学习领域。首先训练xgboost分类器,测试每条CDR数据的欺诈类别概率构成待检测的信令数据集。提取主被叫用户构成通联二部图P,根据评分从信令数据集中选取疑似欺诈的主叫节点生成种子节点集合Z,并将存在共同被叫邻居的任意两个主叫添加到协同网络集合G。通联二部图P扩展出待选的被叫节点集合B,并移除不满足条件的被叫用户,保留下来的被叫节点更新到集合B'中;扩展并更新种子节点集合Z',去重合并更新协同网络G',降维得到嵌入向量进行建模预测,取异常得分最大的N个作为检测结果输出。本发明保证了生成的协同网络的质量,提高计算速度,可以适应不同的数据特点。