一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法

    公开(公告)号:CN107679073A

    公开(公告)日:2018-02-09

    申请号:CN201710742190.8

    申请日:2017-08-25

    Abstract: 本发明涉及一种压缩网页指纹库构建方法和压缩网页快速相似性匹配方法。该方法包括:对Gzip压缩网页进行霍夫曼解码,得到半解压缩网页;对半解压缩网页进行分词处理,并选取能够表征网页的分词作为特征分词;对网页的特征分词进行降维处理,生成一维的指纹信息;根据网页的指纹信息构建指纹库;对在线的Gzip压缩网页采用同样方法生成一维的指纹信息,并与Gzip压缩网页的指纹库中的指纹进行相似性比较,根据设定的相似度阈值判定是否相似。采用本发明的方法进行压缩网页的相似性匹配,能够有效地提高压缩网页的相似性匹配的效率。

    一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质

    公开(公告)号:CN107515901A

    公开(公告)日:2017-12-26

    申请号:CN201710606580.2

    申请日:2017-07-24

    Abstract: 本发明公开了一种链式日志存储结构及其哈希索引结构、数据操作方法及服务器、介质。本发明的链式日志存储结构,包括多个存储段和一数组,每一存储段的存储单元为一日志项,日志项包括初始大小字段、索引位置字段、键长度字段、Key字段和Value字段;其中Value字段用于存储数据,Key字段用于存储数据的键,初始大小字段用于存储日志项的初始大小,索引位置字段用于存储日志项的索引在哈希表中的位置;所述数组用于存储各存储段的元信息。本发明的哈希索引结构包括多个哈希桶,每一哈希桶的数据结构包括:索引数字段、有效标志字段、标签字段、偏移量字段和扩展桶字段。本发明能够保持整个结构内存的紧密连续性,降低碎片率。

    一种面向实时云平台的故障检测与容错方法及系统

    公开(公告)号:CN103716182B

    公开(公告)日:2016-08-31

    申请号:CN201310681028.1

    申请日:2013-12-12

    Abstract: 本发明涉及一种面向实时云平台的故障检测与容错方法及系统,包括发送命令,提交任务,并将分配给工作节点的任务存储在相应路径下的客户端;用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错,执行故障节点中任务的迁移的全局状态监控模块;用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息的全局状态存储模块;用于执行任务,运行守护进程来守护工作进程,并执行程序级故障检测与容错的工作节点;本发明中使整个集群的状态信息全部存储在Zookeeper系统中,实现节点的无状态架构,节点故障不会造成状态丢失,具有完善的故障检测与容错机制,实现多级容错,保障实时业务的不间断运行。

    基于多维度聚合的DNS代理缓存优化方法和系统

    公开(公告)号:CN105791460A

    公开(公告)日:2016-07-20

    申请号:CN201610121291.9

    申请日:2016-03-03

    CPC classification number: H04L61/1511 H04L63/0236 H04L67/2842

    Abstract: 本发明涉及一种基于多维度聚合的DNS代理缓存优化方法和系统,该方法包括以下步骤:1)对请求非法域名进行过滤;2)若域名合法且域名在DNS代理缓存中命中,则直接应答用户请求,结束域名查询行为;否则转步骤3);3)DNS代理缓存将域名请求转发给缓存域名服务器,接收缓存域名服务器的应答结果并进行存储;4)将合法域名按级依次插入多级哈希表中,为各个缓存项更新查询频数和查询时间;同时将末级域名的多应答IP按{网段号:主机号列表}进行聚合存储;5)若哈希冲突,则采用线性法处理冲突;6)若哈希表满,则根据更新频数和更新时间为每个表项计算替换概率,根据最小替换概率对表项进行替换。

    一种网络数据包处理动态负载均衡方法

    公开(公告)号:CN104580001A

    公开(公告)日:2015-04-29

    申请号:CN201410849362.8

    申请日:2014-12-29

    Abstract: 本发明公开了一种网络数据包处理动态负载均衡方法。本方法为:1)将网络中的数据处理节点分为若干分区,每个分区设置一分区均衡控制器;2)所述分区均衡控制器定期采集并更新所在分区中数据处理节点的状态,维护一所在分区内所有数据处理节点的状态信息表;3)主控制器向每个所述分区均衡控制器查询当前分区的状态,更新分区状态表,并根据每个分区的状态将数据包发送给状态为空闲或者正常的分区进行处理;其中,当数据包到达状态为正常的分区时,根据公式确定该分区中每个数据处理节点可分配的数据包;本发明可以在大量数据包未被处理时就对其做出整体的分配,无需等到数据包处理过程中观察系统状态再做出调整。

    一种面向实时云平台的故障检测与容错方法及系统

    公开(公告)号:CN103716182A

    公开(公告)日:2014-04-09

    申请号:CN201310681028.1

    申请日:2013-12-12

    Abstract: 本发明涉及一种面向实时云平台的故障检测与容错方法及系统,包括发送命令,提交任务,并将分配给工作节点的任务存储在相应路径下的客户端;用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错,执行故障节点中任务的迁移的全局状态监控模块;用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息的全局状态存储模块;用于执行任务,运行守护进程来守护工作进程,并执行程序级故障检测与容错的工作节点;本发明中使整个集群的状态信息全部存储在Zookeeper系统中,实现节点的无状态架构,节点故障不会造成状态丢失,具有完善的故障检测与容错机制,实现多级容错,保障实时业务的不间断运行。

    一种基于网络流量多字段识别的人流量检测方法及系统

    公开(公告)号:CN106878102A

    公开(公告)日:2017-06-20

    申请号:CN201611204278.6

    申请日:2016-12-23

    Abstract: 本发明提供一种基于网络流量多字段识别的人流量检测方法,步骤包括:1)获取网络流量,对所含的数据包进行预处理,包括IP碎片重组、链接还原和协议识别;2)识别预处理后的数据包所含的多字段信息,该多字段信息包括基准字段、设备指纹字段、位置信息和时间戳信息;3)将多字段信息填充于设备表中;4)通过检测设备表中的联网设备位置信息和时间戳信息来统计人流量。本发明还提供一种基于网络流量多字段识别的人流量检测系统,包括流量获取模块、数据预处理模块、多字段识别模块、设备表模块及人流量统计模块。

    一种微博热点事件的地理位置发现方法

    公开(公告)号:CN105630884A

    公开(公告)日:2016-06-01

    申请号:CN201510957634.0

    申请日:2015-12-18

    CPC classification number: G06F17/3087 G06F17/30705

    Abstract: 本发明公开了一种微博热点事件的地理位置发现方法。本方法为:1)基于行政区规划地理词词典及中文简称词的命名规则构建一简称词词典,然后将该简称词词典与全称词词典进行关联;2)根据事件关键字,获取包含该事件关键字的微博信息;3)对获取的微博信息进行分词处理,得到该微博的分词集合,然后判断该分词集合中每一名词是否在该简称词词典或全称词词典中,如果存在则将该名词作为候选地理位置词保留;当该微博中出现多个候选地理位置词时,则选取一候选地理位置词作为该微博的地点;4)获取确定的每一地点的地理位置经纬度信息,然后对得到的地理位置经纬度信息进行聚类,根据聚类中心判断出事件爆发地点。本方法可更好的了解突发事件。

    一种用于流量监测的效果验证方法及系统

    公开(公告)号:CN112272121B

    公开(公告)日:2022-01-18

    申请号:CN202010995988.5

    申请日:2020-09-21

    Abstract: 本发明公开了一种用于流量监测的效果验证方法及系统。本方法为:1)样本管理模块根据样本测试需求选取协议类型并设置对应的配置项,构造所需样本数据包并上传给服务器;配置项中包含数据包唯一标识信息、测试文件和测试次数;2)服务器根据样本数据包的协议规范发送样本数据包以构造相应流量环境;3)检测处置模块根据该服务器所发送样本数据包的协议类型存储对应样本数据包的标识;以及获取该服务器的全量流量监测日志并解析,根据日志结构区分不同协议以获取对应的数据包标识;4)检测处置模块将从日志解析的数据包标识与存储的样本数据包标识进行匹配,得到该服务器所发送样本数据包的监测结果,该监测结果即为验证结果。

Patent Agency Ranking