一种HDFS多线程并行下载方法

    公开(公告)号:CN104462324A

    公开(公告)日:2015-03-25

    申请号:CN201410721324.4

    申请日:2014-12-03

    Inventor: 房体盈 辛国茂

    CPC classification number: G06F17/302 G06F9/4843 G06F17/30224

    Abstract: 本发明提供一种HDFS多线程并行下载方法,属于大数据领域,存放到HDFS上文件,采用分块方式存放到整个集群中;当从HDFS上下载文件时,首先获取该文件所有block分块下载地址,针对每个block,启动一个线程来下载,这样可同时启动N个线程同时下载N个数据块,直到所有数据块下载完毕;为了保证下载的文件的一致性,将block[i]数据块写入到客户端文件的67108864*(i-1)~67108864*i(i>1)位置。最大限度的发挥集群的性能,提高下载效率。

    一种针对混合型大数据处理系统的数据交互分析方法

    公开(公告)号:CN104391957A

    公开(公告)日:2015-03-04

    申请号:CN201410710850.0

    申请日:2014-12-01

    CPC classification number: G06F17/30395 G06F17/30315 G06F17/30466

    Abstract: 本发明公开了一种针对混合型大数据处理系统的数据交互分析方法,属于大数据分析技术领域,混合型大数据处理系统是基于HBase数据库及基于内存计算引擎的Hive系统构建,交互查询sql语句由客户端发出,包括针对Hive表和HBase表的join操作,其特征在于采用bucketjoin方法进行数据交互,bucketjoin方法包括数据准备过程和运行时执行过程。本发明通过分桶、coprocessr和mapjoin的方式,大大提高了跨Hive和HBase系统的关联分析性能,能够满足行业大数据针对混合处理系统的交互分析业务应用需求。

    一种Hbase数据自动化创建Solr索引文件的方法

    公开(公告)号:CN104503985A

    公开(公告)日:2015-04-08

    申请号:CN201410721633.1

    申请日:2014-12-03

    CPC classification number: G06F17/30949

    Abstract: 本发明提供一种Hbase数据自动化创建Solr索引文件的方法,属于大数据领域,本发明采用基于Solr+HBase+Hive的方法,可以对HBase中的数据通过配置完成索引的自动化创建工作。通过创建Hive外表与Hbase表的进行关联,从而可以实现通过Hive来访问HBase中的数据。利用Solr提供的DIH(DataImportHandler)组件,通过Hive提供的jdbc接口,来访问Hive外表关联的Hbase中的数据,利用DIH自动化创建索引的功能,从而实现了HBase数据自动化创建索引的功能。

    一种HDFS中大数据迁移完整性验证的方法

    公开(公告)号:CN103971066A

    公开(公告)日:2014-08-06

    申请号:CN201410212726.1

    申请日:2014-05-20

    CPC classification number: G06F21/64 G06F17/30194

    Abstract: 本发明提供一种HDFS中大数据迁移完整性验证的方法,其具体实现过程如下:获取原始HDFS文件及目录结构详细信息和迁移后的新HDFS文件信息;对原始文件信息以及新文件信息分片处理;输出新旧文件信息的对比验证和验证结果。该一种HDFS中大数据迁移完整性验证的方法和现有技术相比,不需要进行程序的编译、打包,只需要简单的脚本即可完成验证;更加突出大数据灵活、便捷的优势,使得用户可以非常快速简便的找到可能存在的不完整的数据;适用范围广泛,该方法适用于多种HDFS环境,实用性强。

    一种紧耦合可扩展的大数据交互方法

    公开(公告)号:CN104348913B

    公开(公告)日:2016-08-24

    申请号:CN201410585403.7

    申请日:2014-10-28

    CPC classification number: H04L29/08

    Abstract: 本发明提供一种紧耦合可扩展的大数据交互方法,通过构建分布式紧耦合的客户端驱动层,在保证一致性的基础上,能够避免客户端或服务端的单点失效,并减少了客户端之间的通信开销,使系统在以元数据查询类为主的场景下具有接近线性的可扩展性,满足大数据的在线高并发交互分析需求。上述方法可以保证数据的读写一致性,虽然单纯读操作会出现延迟现象,但可以保证读取版本的顺序一致。在需要读取最新版本情况下,可以主动执行一次数据同步过程。此外,该方法具备很好的容错性,只要失效节点数小于半数,其他节点读写数据不受影响,当节点回复后,只需一次读写操作通过步骤即可同步。

Patent Agency Ranking