一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713A

    公开(公告)日:2020-01-17

    申请号:CN201910916820.8

    申请日:2019-09-26

    Abstract: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

    一种网站分类方法
    7.
    发明公开

    公开(公告)号:CN103605794A

    公开(公告)日:2014-02-26

    申请号:CN201310651985.X

    申请日:2013-12-05

    CPC classification number: G06F17/3089 G06N3/08

    Abstract: 本发明公开了一种网站分类方法,包括:获取网站的多维属性,利用集合对多维属性进行表示;针对表示多维属性的集合,进行自编码特征学习;利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将该结构输入到步骤S103得到的SVM中,进行网站分类,得到网站的类别。本发明的网站分类方法能高效准确的按照行业类别对网站进行分类,并且能快速侦测具有恶意特征的钓鱼网页;采用多维属性描述的方式,增加系统的便利性与通用性;且系统具有极强的稳定性。

    基于层次判别树的多标签科研论文的分类方法

    公开(公告)号:CN110781297B

    公开(公告)日:2022-06-21

    申请号:CN201910881086.6

    申请日:2019-09-18

    Abstract: 本发明公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

    基于层次判别树的多标签科研论文的分类方法

    公开(公告)号:CN110781297A

    公开(公告)日:2020-02-11

    申请号:CN201910881086.6

    申请日:2019-09-18

    Abstract: 本发明公开了一种基于层次判别树的多标签科研论文的分类方法,包括:步骤一、获取标签已知的论文和标签,提取标签的特征词语集合,构建二元判别模型;步骤二、将标签更新为二元判别模型,得层次判别树模型;步骤三、获取标签未知论文的文本表征,输入到层次判别树模型中根节点的所有二元判别模型中,计算具有该节点对应标签的概率,若大于阈值,则输出该根节点对应的标签;输入至该标签对应的节点的子节点的所有二元判别模型中,计算具有该节点代表标签的概率,若大于阈值,则输出该子节点对应的标签,逐级判断,直至叶节点;输出的所有标签即为该论文的标签。本发明具有充分挖掘论文的特征词语,快速、准确对论文进行层次分类的有益效果。

    一种基于特征注入的仿冒应用程序监测方法

    公开(公告)号:CN103823751A

    公开(公告)日:2014-05-28

    申请号:CN201310682073.9

    申请日:2013-12-13

    Abstract: 本发明是关于一种基于特征注入的仿冒应用程序监测方法,包括以下步骤:步骤S1,获取待监测的应用程序;步骤S2,根据上述应用程序的文件结构,在待监测的应用程序中注入监测特征;步骤S3,对含有监测特征的应用程序进行数字签名;步骤S4,记录待监测应用程序被注入的监测特征与数字签名的配对信息;步骤S5,对被注入监测特征的应用程序进行监测;其中,在监测过程中,当捕获到的应用程序文件中含有被注入的监测特征时,如果该应用程序的数字签名与监测特征对应的签名不一致时,表明该捕获到的应用程序是仿冒应用程序;反之,表明不是仿冒应用程序。借由本发明,能够快速准确地识别仿冒应用程序,实现对仿冒应用程序的实时监测。

Patent Agency Ranking