用于移动互联网海量监测数据的分级分类处理方法及系统

    公开(公告)号:CN110110081B

    公开(公告)日:2021-05-11

    申请号:CN201910279309.1

    申请日:2019-04-09

    Abstract: 本发明公开了一种用于移动互联网海量监测数据的分级分类处理方法,包括以下步骤:接收并解析监测日志数据,获取监测日志数据的协议类型;根据监测日志数据的协议类型,确定监测日志数据的存储级别;根据监测日志数据的存储级别,对监测日志数据进行存储本发明提供的将移动互联网海量数据按需分级分类监测的方法,可以根据业务需求动态配置数据分级分类存储的策略,并在海量日志数据向后端存储系统发送时加入分级存储的标签;通过对日志的分级、分类存储在能够满足业务需求的情况下减少对存储空间的使用,提升系统存储效率。

    一种用于移动物联网智能终端的数据监测方法及系统

    公开(公告)号:CN110121175A

    公开(公告)日:2019-08-13

    申请号:CN201910297008.1

    申请日:2019-04-12

    Abstract: 本发明公开了一种用于移动物联网智能终端的数据监测方法,包括以下步骤:根据所述智能终端的平均数据量、数据访问方向以及设备识别特征码生成数据特征码;根据所述数据特征码,查询历史数据特征码表,判定所述智能终端的类别。本发明基于指纹提取、IP标定和A记录等数据,采用多维度的复合信息对移动智能终端设备进行分类,覆盖设备范围更加全面,采集到的物联网和智能终端类型更加丰富;可识别多种业务协议和设备,支持动态增加物联网协议和设备质问,可扩展性更好;多种标注手段相结合,具有较高的纠错率和鲁棒性。

    用于移动互联网海量监测数据的分级分类处理方法及系统

    公开(公告)号:CN110110081A

    公开(公告)日:2019-08-09

    申请号:CN201910279309.1

    申请日:2019-04-09

    Abstract: 本发明公开了一种用于移动互联网海量监测数据的分级分类处理方法,包括以下步骤:接收并解析监测日志数据,获取监测日志数据的协议类型;根据监测日志数据的协议类型,确定监测日志数据的存储级别;根据监测日志数据的存储级别,对监测日志数据进行存储本发明提供的将移动互联网海量数据按需分级分类监测的方法,可以根据业务需求动态配置数据分级分类存储的策略,并在海量日志数据向后端存储系统发送时加入分级存储的标签;通过对日志的分级、分类存储在能够满足业务需求的情况下减少对存储空间的使用,提升系统存储效率。

    用于URL分析系统的文件扩展名快速匹配方法和装置

    公开(公告)号:CN108549679A

    公开(公告)日:2018-09-18

    申请号:CN201810288551.0

    申请日:2018-04-03

    Abstract: 本发明公开了一种用于URL分析系统的文件扩展名快速匹配方法和装置。所述方法包括:根据用户的业务需求,接收所需过滤URL的文件扩展名信息;利用接收到的所需过滤URL的文件扩展名信息,构建快速匹配算法环境;利用构建的快速匹配算法环境,对待检测URL的文件扩展名进行匹配,过滤掉不符合用户业务需求的URL。本发明基于用户的业务需求构建的快速匹配算法环境,该快速匹配算法环境使用字节来标记字符,并利用父节点储存位置和父节点中字符的索引值来直接定位子节点中字符的储存位置,而不使用常规的指针索引子节点,节省存储空间并提升匹配效率,尤其适用于处理海量URL数据,数据处理效率高。

    一种针对竖排文本的检测方法及装置

    公开(公告)号:CN115410207A

    公开(公告)日:2022-11-29

    申请号:CN202110588830.0

    申请日:2021-05-28

    Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。

    一种基于多数据源的论文数据爬取方法及系统

    公开(公告)号:CN110704713A

    公开(公告)日:2020-01-17

    申请号:CN201910916820.8

    申请日:2019-09-26

    Abstract: 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。

Patent Agency Ranking