一种数据处理方法及系统

    公开(公告)号:CN102831120B

    公开(公告)日:2017-07-21

    申请号:CN201110160630.1

    申请日:2011-06-15

    Abstract: 本发明公开了一种数据处理方法及系统,包括:在基于映射/化简框架完成对结构化查询语言查询的处理和计算,数据存储任务由分布式文件系统完成的数据处理中,将数据表定义为采用哈希分区的方式,并在哈希分区中存储数据;在确定所需执行的查询为连接查询或分组查询,且源数据表为哈希分区数据表、连接键或分组键为分区列时,将该查询修改为在映射端以哈希分区为单位的连接查询或分组查询后执行查询。本发明可以减小连接查询和分组查询的开销,实现节约网络带宽、磁盘带宽和网络资源,提高了计算效率。

    一种数据存储方法和装置

    公开(公告)号:CN102880615A

    公开(公告)日:2013-01-16

    申请号:CN201110198294.X

    申请日:2011-07-15

    Abstract: 本发明实施例公开了一种数据存储方法和装置,该方法包括:获得需要存储的数据和所述数据的逻辑存储信息;根据所述逻辑存储信息将所述数据以段为单位存储在数据文件中,并在所述数据文件中形成数据段和数据段索引,所述数据段索引用于在所述数据文件中定位数据所在的数据段,以便分布式集群并行处理所述数据文件的数据段。采用本发明,可提高分布式集群中的数据处理效率。

    一种分布式数据仓库中实现计算均衡的方法及装置

    公开(公告)号:CN102479217B

    公开(公告)日:2015-07-15

    申请号:CN201010566142.6

    申请日:2010-11-23

    Abstract: 本发明公开了一种分布式数据仓库中实现计算均衡的方法及装置,用于解决分布式数据仓库在执行Map/Reduce计算过程中由于数据自身的不均衡分布导致在执行SQL查询时,集群计算资源使用不均衡的技术问题。本发明在分布式数据仓库中,将对字段分布情况的感知功能与查询引擎结合,对查询引擎翻译的MR任务进行调整,根据字段值分布情况,进行查询语句的翻译,通过添加一个或者多个MR任务对数据进行打散操作,使得数据分散更加合理均衡,从而达到计算均衡,提高了集群内部计算资源的平均利用,加快了MR任务的执行速度。

    一种数据存储方法和装置

    公开(公告)号:CN102880615B

    公开(公告)日:2018-04-27

    申请号:CN201110198294.X

    申请日:2011-07-15

    Abstract: 本发明实施例公开了一种数据存储方法和装置,该方法包括:获得需要存储的数据和所述数据的逻辑存储信息;根据所述逻辑存储信息将所述数据以段为单位存储在数据文件中,并在所述数据文件中形成数据段和数据段索引,所述数据段索引用于在所述数据文件中定位数据所在的数据段,以便分布式集群并行处理所述数据文件的数据段。采用本发明,可提高分布式集群中的数据处理效率。

    一种分布式数据仓库的访问方法和装置

    公开(公告)号:CN102385606B

    公开(公告)日:2016-08-03

    申请号:CN201010274687.X

    申请日:2010-09-03

    Abstract: 本发明提供了一种分布式数据仓库的访问方法和装置:将接收到的每个文本格式的文件转换为结构化格式,并进行存储;每个结构化格式的文件中包括一个文件头(Head)、一个以上数据段(Segment)以及一个一级块索引表,一级块索引表中保存有每个Segment对应的一级块索引项,每个一级块索引项中保存有其对应的Segment的索引信息;每个Segment中包括一个以上单元(Unit)和一个二级块索引表,二级块索引表中保存有每个Unit对应的二级块索引项,每个二级块索引项中保存有其对应的Unit的索引信息;每个Unit中包括一个以上的数据块(Chunk),每个Chunk对应一个记录;根据索引信息对分布式数据仓库进行访问。应用本发明所述方案,能够方便用户使用,且能够节省存储空间和提高数据的安全性。

    一种数据处理方法及系统

    公开(公告)号:CN102831120A

    公开(公告)日:2012-12-19

    申请号:CN201110160630.1

    申请日:2011-06-15

    Abstract: 本发明公开了一种数据处理方法及系统,包括:在基于映射/化简框架完成对结构化查询语言查询的处理和计算,数据存储任务由分布式文件系统完成的数据处理中,将数据表定义为采用哈希分区的方式,并在哈希分区中存储数据;在确定所需执行的查询为连接查询或分组查询,且源数据表为哈希分区数据表、连接键或分组键为分区列时,将该查询修改为在映射端以哈希分区为单位的连接查询或分组查询后执行查询。本发明可以减小连接查询和分组查询的开销,实现节约网络带宽、磁盘带宽和网络资源,提高了计算效率。

    数据加载的方法及装置
    7.
    发明公开

    公开(公告)号:CN102486798A

    公开(公告)日:2012-06-06

    申请号:CN201010582286.0

    申请日:2010-12-03

    Abstract: 本发明公开了一种数据加载的方法及装置,属于数据库领域。所述方法包括:根据分区的类型创建分区表,所述分区表中包含分区字段;逐行读取需要加载的数据;根据所述分区表的分区信息获取该行数据的分区字段;根据所述数据的分区字段确定该行数据在所述分区表中所属的分区;将该行数据加载到对应的所属分区中。所述装置包括:创建模块、读取模块、获取模块、确定模块和加载模块。本发明通过根据分区表的分区信息获取数据的分区字段,并确定数据在分区表中所属的分区,将该行数据自动加载到对应的分区中去,实现了在分布式文件系统上自动加载数据,从而保证数据加载到正确的分区中,避免了人工指定分区导致的数据加载错误。

    一种分布式数据仓库中实现计算均衡的方法及装置

    公开(公告)号:CN102479217A

    公开(公告)日:2012-05-30

    申请号:CN201010566142.6

    申请日:2010-11-23

    Abstract: 本发明公开了一种分布式数据仓库中实现计算均衡的方法及装置,用于解决分布式数据仓库在执行Map/Reduce计算过程中由于数据自身的不均衡分布导致在执行SQL查询时,集群计算资源使用不均衡的技术问题。本发明在分布式数据仓库中,将对字段分布情况的感知功能与查询引擎结合,对查询引擎翻译的MR任务进行调整,根据字段值分布情况,进行查询语句的翻译,通过添加一个或者多个MR任务对数据进行打散操作,使得数据分散更加合理均衡,从而达到计算均衡,提高了集群内部计算资源的平均利用,加快了MR任务的执行速度。

    一种分布式数据仓库的访问方法和装置

    公开(公告)号:CN102385606A

    公开(公告)日:2012-03-21

    申请号:CN201010274687.X

    申请日:2010-09-03

    Abstract: 本发明提供了一种分布式数据仓库的访问方法和装置:将接收到的每个文本格式的文件转换为结构化格式,并进行存储;每个结构化格式的文件中包括一个文件头(Head)、一个以上数据段(Segment)以及一个一级块索引表,一级块索引表中保存有每个Segment对应的一级块索引项,每个一级块索引项中保存有其对应的Segment的索引信息;每个Segment中包括一个以上单元(Unit)和一个二级块索引表,二级块索引表中保存有每个Unit对应的二级块索引项,每个二级块索引项中保存有其对应的Unit的索引信息;每个Unit中包括一个以上的数据块(Chunk),每个Chunk对应一个记录;根据索引信息对分布式数据仓库进行访问。应用本发明所述方案,能够方便用户使用,且能够节省存储空间和提高数据的安全性。

Patent Agency Ranking