一种基于雪花模型的多个HBase表关联方法

    公开(公告)号:CN104376103A

    公开(公告)日:2015-02-25

    申请号:CN201410689780.5

    申请日:2014-11-26

    Abstract: 本发明公开了一种基于雪花模型的多个HBase表关联方法,属于大数据技术领域,HBase表包括查询入口表、主事实表、补充事实表和维表;以主事实表作为雪花模型的中心表和关联的起点,在主事实表的主键中包含查询入口表条件作为组成部分;查询入口表按输入条件和对象对应关系设计组合主键;针对主事实表的补充事实表,设计与主事实表相同的组合主键;针对各个维表主键,基于主事实表、补充事实表外键设计;多表关联的执行过程为在主事实表中根据input扫描到所有符合条件对象及条目object|item;在查询入口表中根据input|object查询相关信息;在补充事实表中根据input|object|item查询主事实表条目的补充信息;根据主事实表条目中的fk,在维表中根据pk查询维表中相关信息。本发明提高了执行效率。

    一种面向混合型大数据处理系统的分区连接方法

    公开(公告)号:CN104346447A

    公开(公告)日:2015-02-11

    申请号:CN201410585204.6

    申请日:2014-10-28

    CPC classification number: G06F17/30584

    Abstract: 本发明提供一种面向混合型大数据处理系统的分区连接方法,本发明提出的面向混合型大数据处理系统的分区连接方法,能够满足行业大数据针对不同处理系统的交互分析业务应用需求,并且通过分区、coprocessr和mapjoin,大大提高了此类分析的性能,并可以进一步应用于基于join的分组、统计、排序等交互分析。通过确定Hive查询分区,减少参与传输、缓存和join过程的数据量,并且充分利用分布式架构优势,使所有节点的缓存过程并行执行,通过在各节点缓存数据,能够加快join执行效率,并且HBase表的数据量和节点数量能够按需扩展。

Patent Agency Ranking