一种数据抽取方法及装置

    公开(公告)号:CN104182502B

    公开(公告)日:2017-10-27

    申请号:CN201410406481.6

    申请日:2014-08-18

    Abstract: 本发明提供一种数据抽取方法,应用于关系型数据库,所述方法包括:根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;根据所述各数据分区的数据行数计算所述各数据分区的权重;根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明通过对将数据表分为若干数据分区,动态分配各数据分区的线程数,解决了各线程分配数据不均匀的问题,提高了关系型数据的数据抽取效率。

    一种数据的并行处理方法和系统

    公开(公告)号:CN104036039B

    公开(公告)日:2017-09-29

    申请号:CN201410307198.8

    申请日:2014-06-30

    Abstract: 本发明公开了一种数据的并行处理方法,包括:一个或多个Map节点读取账户日志数据的分片数据,从分片数据中选出状态持续时间满足查询日期要求的候选数据记录,生成所选出的候选数据记录的第一输出参数和第二输出参数;第一输出参数至少包括账户ID,第二输出参数至少包括:状态开始日、状态结束日和状态值;一个或多个Reduce节点读取Map节点处理完的不同候选数据记录,根据候选数据记录的第一输出参数和第二输出参数分别生成各账户在查询日期范围内的完整历史状态记录;第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。本发明能提高大规模日志数据的处理效率。本发明还公开了一种数据的并行处理系统。

    一种实现Windows下连接控制Hbase的方法及装置

    公开(公告)号:CN104036006A

    公开(公告)日:2014-09-10

    申请号:CN201410279863.7

    申请日:2014-06-20

    CPC classification number: G06F8/24

    Abstract: 本发明公开了一种实现Windows下连接控制Hbase的方法及装置,包括:封装所有Thrift的应用程序编程接口(API)的访问接口的功能函数及获取Hadoop数据库(Hbase)元数据的函数;还包括:当用户访问Hbase时,建立HBase服务器(Server)与Hbase的连接;HBase Server将执行请求和执行的封装的功能函数及获取Hbase元数据的函数发往Hbase。本发明通过将连接和控制HBase的功能函数进行有效封装,使Windows下连接和控制HBase得到稳定,采用C#封装的功能函数可以进行移植,适用范围广。

    一种面向大数据处理的数据处理方法和装置

    公开(公告)号:CN104008153A

    公开(公告)日:2014-08-27

    申请号:CN201410217394.6

    申请日:2014-05-21

    CPC classification number: G06F17/30312

    Abstract: 本发明公开了一种面向大数据的数据处理方法和装置,该方法包括:获取处理环境数据及负载场景数据;选择处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;处理环境数据包括网络传输的性能指标和磁盘的性能指标;负载场景数据包括读操作比例和写操作比例,读操作比例与写操作比例相加为1。本发明能够指导在不同运行环境、不同负载场景下的压缩方式的选择,优化大数据处理性能。

    一种海量文件的存储方法和装置

    公开(公告)号:CN104331518B

    公开(公告)日:2017-12-29

    申请号:CN201410709125.1

    申请日:2014-11-27

    Abstract: 本发明实施例提供的一种海量文件的存储方法和装置,可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。具体方案为:在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据;当所述待存储文件中的数据存储成功后,使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。

    一种基于Hbase的海量图片存储方法及装置

    公开(公告)号:CN104199899A

    公开(公告)日:2014-12-10

    申请号:CN201410425822.4

    申请日:2014-08-26

    Inventor: 房体盈 辛国茂

    CPC classification number: G06F17/30253 G06F17/30575

    Abstract: 本发明公开了一种基于Hbase的海量图片存储方法及装置,包括:读取预设大小的结构化文本信息,并创建一个Mapfile文件;其中,结构化文本信息为图片的属性信息与图片的原始索引信息;确定读取的预设大小的结构化文本信息所对应的各个图片,将确定的各个图片以字节流的形式写入到已建立的Mapfile文件中;将读取的预设大小的结构化文本信息中的各个图片的属性信息以及各个图片所在的Mapfile文件的索引信息存储至HBase表中。本发明技术方案实现了将几十K的小图片合并成一个大文件,避免了因将海量几十K小图片直接存放到HDFS上产生大量元数据从而导致占用大量内存,避免了将海量图片存放到HBase的过程中导致的频繁的Hfile文件的Compaction及Region split,极大地提高了写入速度。

    一种数据抽取方法及装置
    10.
    发明公开

    公开(公告)号:CN104182502A

    公开(公告)日:2014-12-03

    申请号:CN201410406481.6

    申请日:2014-08-18

    CPC classification number: G06F17/30563 G06F17/30595

    Abstract: 本发明提供一种数据抽取方法,应用于关系型数据库,所述方法包括:根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;根据所述各数据分区的数据行数计算所述各数据分区的权重;根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明通过对将数据表分为若干数据分区,动态分配各数据分区的线程数,解决了各线程分配数据不均匀的问题,提高了关系型数据的数据抽取效率。

Patent Agency Ranking