一种基于多文件格式自动识别的跨地域关联统计方法

    公开(公告)号:CN107168984A

    公开(公告)日:2017-09-15

    申请号:CN201710165255.7

    申请日:2017-03-20

    CPC classification number: G06F17/30194 G06F17/30424

    Abstract: 本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法,属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求;然后对SQL查询请求进行解析,以识别查询的不同文件格式;然后全局节点将解析成功后的查询请求发送到对应的分节点;然后各分节点进行相应的查询操作,并将查询结果回传给全局节点;最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中,能够实现多种文件格式的自动识别,突破了地域限制,能够将不同数据中心的数据进行关联统计。

    一种基于MPP引擎的跨数据中心快速查询方法和系统

    公开(公告)号:CN107066546A

    公开(公告)日:2017-08-18

    申请号:CN201710165501.9

    申请日:2017-03-20

    Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。

    一种海量非结构化数据的数据存储方法

    公开(公告)号:CN104731864A

    公开(公告)日:2015-06-24

    申请号:CN201510088785.7

    申请日:2015-02-26

    CPC classification number: G06F17/30628 G06F17/30132

    Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。

    一种基于系统溯源图的大规模勒索软件分析方法和分析装置

    公开(公告)号:CN113779573B

    公开(公告)日:2023-08-29

    申请号:CN202110890621.1

    申请日:2021-08-04

    Abstract: 本发明是有关于一种基于系统溯源图的大规模勒索软件分析方法包括采集大规模勒索软件样本集,构建勒索软件分析沙箱集群,采集勒索软件运行时系统事件日志,过滤和裁剪原始事件日志数据,事件日志标准化和归一化,生成勒索软件系统溯源图,采用日志压缩算法优化溯源图规模,基于图论度量指标分析勒索软件行为。本发明的分析装置包括样本采集模块、系统日志采集模块、系统溯源图生成模块和样本行为分析模块。本发明通过生成勒索软件运行时的系统溯源图,达到了自动化大规模分析勒索软件的恶意行为的目标,解决了现有采用数据科学方法需要大量人工标注和可解释性差的问题。

    一种自动化异常样本筛选的异常检测方法及装置

    公开(公告)号:CN115438239A

    公开(公告)日:2022-12-06

    申请号:CN202110623899.2

    申请日:2021-06-04

    Abstract: 本发明公开一种自动化异常样本筛选的异常检测方法及装置,包括依据数据集中各数据的特征,进行数据筛选;对筛选得到的数据进行特征降维;针对特征降维后的数据进行异常检测,得到若干候选数据;对所有候选数据作聚类,得到带类别标签的异常数据。本发明利用特征筛选和特征降维方法,解决异常检测算法难以处理高维度特征的问题,并结合对异常检验算法和聚类算法,实现了对异常样本的自动化分析,在整个流程中不需要人工干预,大大减少了异常样本发现与分析过程中的人力投入。

Patent Agency Ranking