面向全文检索的分级存储方法及装置

    公开(公告)号:CN109885642B

    公开(公告)日:2021-11-02

    申请号:CN201910119254.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。

    一种基于MPP引擎的跨数据中心快速查询方法和系统

    公开(公告)号:CN107066546B

    公开(公告)日:2021-03-09

    申请号:CN201710165501.9

    申请日:2017-03-20

    Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。

    一种滑动窗口下多维数据重复检测快速索引方法

    公开(公告)号:CN105989061B

    公开(公告)日:2019-11-26

    申请号:CN201510066798.4

    申请日:2015-02-09

    Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。

    数据即服务模式下支持范围查询的隐私保护方法和系统

    公开(公告)号:CN110378144B

    公开(公告)日:2021-09-07

    申请号:CN201910481273.5

    申请日:2019-06-04

    Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。

    一种支持全局复杂检索的跨地域查询方法及系统

    公开(公告)号:CN107220363B

    公开(公告)日:2020-09-22

    申请号:CN201710422561.4

    申请日:2017-06-07

    Abstract: 本发明涉及一种支持全局复杂检索的跨地域查询方法及系统。该方法包括:1)建立用于跨地域查询的全局元数据组织结构,其包括全局视图以及全局视图与各数据中心的数据表的映射关系;2)根据各数据中心的数据表的结构调整,动态调整全局视图与各数据中心的数据表的映射关系;3)解析用户的查询请求,根据全局元数据组织结构将查询任务下发至各数据中心执行查询,各数据中心将查询结果反馈至全局点;4)全局点将各数据中心返回的查询结果进行汇总,并将汇总后的数据展示给用户,从而实现跨地域查询。本发明能够提高对各数据中心大数据的综合分析能力,在大数据处理领域具有很强的实用性和应用范围,具有广阔的应用前景。

    一种面向Spark-Sql检索的元数据实时更新方法

    公开(公告)号:CN107391555B

    公开(公告)日:2020-08-04

    申请号:CN201710422553.X

    申请日:2017-06-07

    Abstract: 本发明涉及一种面向Spark‑Sql检索的元数据实时更新方法。该方法在Spark Sql进行检索时,会将使用的元数据进行缓存,将被检索的数据块文件元数据以集合的形式缓存于内存中;当获得文件元数据的增量信息时,将首先检查该增量信息所属的表的检索元数据是否存在于缓存之中,若存在,则将增量的文件元数据增加至缓存的该表文件元数据的集合之中,由此完成Spark Sql检索元数据的增量更新。本发明还提出了对Spark Sql检索元数据增加情况的处理方法,可以实时的对检索元数据的增加情况进行处理,提高检索结果的实时性。本发明可以避免对检索元数据进行经常性的全量更新,以减少更新元数据时的时间和资源开销。

    数据即服务模式下支持范围查询的隐私保护方法和系统

    公开(公告)号:CN110378144A

    公开(公告)日:2019-10-25

    申请号:CN201910481273.5

    申请日:2019-06-04

    Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。

Patent Agency Ranking