面向全文检索的分级存储方法及装置

    公开(公告)号:CN109885642A

    公开(公告)日:2019-06-14

    申请号:CN201910119254.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。

    一种界标窗口下域名数据重复检测快速索引方法

    公开(公告)号:CN104794158A

    公开(公告)日:2015-07-22

    申请号:CN201510117236.8

    申请日:2015-03-17

    Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。

    面向全文检索的分级存储方法及装置

    公开(公告)号:CN109885642B

    公开(公告)日:2021-11-02

    申请号:CN201910119254.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。

    一种基于MPP引擎的跨数据中心快速查询方法和系统

    公开(公告)号:CN107066546B

    公开(公告)日:2021-03-09

    申请号:CN201710165501.9

    申请日:2017-03-20

    Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。

Patent Agency Ranking