一种基于多文件格式自动识别的跨地域关联统计方法

    公开(公告)号:CN107168984A

    公开(公告)日:2017-09-15

    申请号:CN201710165255.7

    申请日:2017-03-20

    CPC classification number: G06F17/30194 G06F17/30424

    Abstract: 本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法,属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求;然后对SQL查询请求进行解析,以识别查询的不同文件格式;然后全局节点将解析成功后的查询请求发送到对应的分节点;然后各分节点进行相应的查询操作,并将查询结果回传给全局节点;最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中,能够实现多种文件格式的自动识别,突破了地域限制,能够将不同数据中心的数据进行关联统计。

    一种基于MPP引擎的跨数据中心快速查询方法和系统

    公开(公告)号:CN107066546A

    公开(公告)日:2017-08-18

    申请号:CN201710165501.9

    申请日:2017-03-20

    Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。

    一种基于Spark框架进行全文检索的实现方法

    公开(公告)号:CN107943952A

    公开(公告)日:2018-04-20

    申请号:CN201711194929.2

    申请日:2017-11-24

    Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

Patent Agency Ranking