一种基于Spark框架进行全文检索的实现方法

    公开(公告)号:CN107943952B

    公开(公告)日:2020-10-13

    申请号:CN201711194929.2

    申请日:2017-11-24

    Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

    面向全文检索的分级存储方法及装置

    公开(公告)号:CN109885642A

    公开(公告)日:2019-06-14

    申请号:CN201910119254.8

    申请日:2019-02-18

    Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。

    一种任务动态管理方法和装置

    公开(公告)号:CN108519908A

    公开(公告)日:2018-09-11

    申请号:CN201810158916.8

    申请日:2018-02-24

    Abstract: 本发明公开了一种任务动态管理方法和装置。该方法在客户端侧执行,包括:接收用户提交的元数据操作信息;根据所述元数据操作信息,在实时监听器中操作元数据,并将操作后的所述元数据缓存在实时监听器中;其中,所述实时监听器以分布式协调服务zookeeper搭建,所述元数据为树形结构,所述树形结构的一级节点为流数据节点,二级节点为任务节点。该方法在任务控制器执行,包括:以Storm常驻任务的方式,预先占用中央处理器CPU资源;监听实时监听器中缓存的元数据;所述实时监听器以zookeeper搭建;如果所述实时监听器中缓存的元数据发生变化,则根据发送变化的所述元数据,更新已缓存的任务逻辑。通过本发明可以缩短任务生效时间,降低资源消耗。

Patent Agency Ranking