一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法

    公开(公告)号:CN111831881A

    公开(公告)日:2020-10-27

    申请号:CN202010636291.9

    申请日:2020-07-04

    Abstract: 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法,包括:预处理日志数据,过滤非页面请求,从请求记录中筛选相关字段用于爬虫检测;为每个cookie生成页面请求序列,基于页面请求序列,计算任意两cookie间行为相似度;构建以cookie为节点的完全图,任意两cookie节点间边的权重等于cookie间行为相似度;使用优化谱聚类算法对图进行社区划分;设计社区特征,并设置阈值进行爬虫社区识别;使用核密度估计算法对剩余未发现的爬虫cookie进行挖掘。本发明能够为网站监控爬虫、制定拦截规则、保护公司数据财产与用户隐私等提供技术支持;本发明基于易于获取的流量日志数据实现爬虫检测,具有较高的实际应用价值。

    一种基于变分自动编码器的社交网络用户多属性推断方法

    公开(公告)号:CN110781406A

    公开(公告)日:2020-02-11

    申请号:CN201910971152.9

    申请日:2019-10-14

    Abstract: 一种基于变分自动编码器的社交网络用户多属性推断方法,包括:预处理在线社交网络数据,构建用户属性网络;构建属性推断模型,包括用户变分自动编码器,属性变分自动编码器和判别器,模型将输入数据编码得到用户和属性信息的潜在表示,并通过用户潜在表示重建出补全后的用户属性矩阵;通过对抗训练方式训练模型,使得得到的用户潜在表示中包含更完整属性信息;将待补全的用户属性数据以及用户间好友关系输入模型,输出的用户属性矩阵表示用户拥有不同属性的概率。本发明可用于补全在线社交网络中用户属性数据,从而获得完整的用户画像,所需数据易于获取,计算复杂度低,可在复杂网络中快速推断属性,同时在多数属性预测中准确率非常高。

    基于网络社交媒体数据的城市交通事故预测方法和系统

    公开(公告)号:CN106507315B

    公开(公告)日:2019-06-28

    申请号:CN201611051192.4

    申请日:2016-11-24

    Abstract: 本发明公开了一种基于网络社交媒体数据的城市交通事故预测方法和系统,其特征在于:1)从网络社交媒体等数据中提取特征;2)对特征进行数据分析,获得特征之间以及特征与交通事故结果之间的关系;3)根据相互关系构建交通事故概率预测方程;4)根据预测发生交通事故的概率,决定是否发布交通事故预警信息;本发明所公开的基于网络社交媒体数据的城市交通事故预测方法和系统,实现简单、计算复杂度低,可以有效减少城市交通事故预测的计算资源开销,不需要任何视频监视设备,仅需要网络社交媒体等在线数据,具有实际应用的优势,提供了精确的城市交通事故发生的位置和概率,同时对是否进行交通事故预警进行了决策性判断。

    一种基于随机游走的社区发现方法

    公开(公告)号:CN103699617B

    公开(公告)日:2017-06-06

    申请号:CN201310694794.1

    申请日:2013-12-16

    Abstract: 本发明公开一种基于随机游走的社区发现方法,包括以下步骤,1)通过随机游走获得复杂网络的一个节点序列;2)对节点序列进行数据分析,获得两个节点之间的连接的紧密程度;3)根据节点之间连接的紧密程度来进行社区发现。本发明所公开的基于随机游走的在复杂网络的社区发现方法,实现简单、计算复杂度低,可以有效减少社区发现的计算资源开销,不需要任何先验信息,仅仅需要复杂网络的拓扑结构就可以获得社区发现结果,具有在实际复杂网络中应用的优势,同时对社区重叠部分的节点归属问题做了定量分析。

Patent Agency Ranking