-
公开(公告)号:CN104182502B
公开(公告)日:2017-10-27
申请号:CN201410406481.6
申请日:2014-08-18
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
Abstract: 本发明提供一种数据抽取方法,应用于关系型数据库,所述方法包括:根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;根据所述各数据分区的数据行数计算所述各数据分区的权重;根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明通过对将数据表分为若干数据分区,动态分配各数据分区的线程数,解决了各线程分配数据不均匀的问题,提高了关系型数据的数据抽取效率。
-
公开(公告)号:CN104036039B
公开(公告)日:2017-09-29
申请号:CN201410307198.8
申请日:2014-06-30
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据的并行处理方法,包括:一个或多个Map节点读取账户日志数据的分片数据,从分片数据中选出状态持续时间满足查询日期要求的候选数据记录,生成所选出的候选数据记录的第一输出参数和第二输出参数;第一输出参数至少包括账户ID,第二输出参数至少包括:状态开始日、状态结束日和状态值;一个或多个Reduce节点读取Map节点处理完的不同候选数据记录,根据候选数据记录的第一输出参数和第二输出参数分别生成各账户在查询日期范围内的完整历史状态记录;第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。本发明能提高大规模日志数据的处理效率。本发明还公开了一种数据的并行处理系统。
-
公开(公告)号:CN104504158A
公开(公告)日:2015-04-08
申请号:CN201510026026.8
申请日:2015-01-19
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F16/1847 , G06F16/24552
Abstract: 提出一种快速更新业务的内存缓存的方法和装置,基于读取的外部数据的缓存查找键值在内存缓存中进行查找,如果在所述内存缓存中查找到所述缓存查找键值,则根据内存缓存中存储的与所述缓存查找键值对应的原始数据和所述外部数据进行业务处理,处理完成后把结果更新至所述内存缓存中存储所述原始数据的位置,并将该位置对应的修改标记置为已修改。所述方法和装置减少了数据快速更新时数据库频繁地提交事务进行查询和更新的操作。
-
公开(公告)号:CN104036006A
公开(公告)日:2014-09-10
申请号:CN201410279863.7
申请日:2014-06-20
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F8/24
Abstract: 本发明公开了一种实现Windows下连接控制Hbase的方法及装置,包括:封装所有Thrift的应用程序编程接口(API)的访问接口的功能函数及获取Hadoop数据库(Hbase)元数据的函数;还包括:当用户访问Hbase时,建立HBase服务器(Server)与Hbase的连接;HBase Server将执行请求和执行的封装的功能函数及获取Hbase元数据的函数发往Hbase。本发明通过将连接和控制HBase的功能函数进行有效封装,使Windows下连接和控制HBase得到稳定,采用C#封装的功能函数可以进行移植,适用范围广。
-
公开(公告)号:CN104008153A
公开(公告)日:2014-08-27
申请号:CN201410217394.6
申请日:2014-05-21
Applicant: 浪潮(北京)电子信息产业有限公司
CPC classification number: G06F17/30312
Abstract: 本发明公开了一种面向大数据的数据处理方法和装置,该方法包括:获取处理环境数据及负载场景数据;选择处理环境数据及负载场景数据对应的压缩方式;根据所选择的压缩方式对数据进行处理;处理环境数据包括网络传输的性能指标和磁盘的性能指标;负载场景数据包括读操作比例和写操作比例,读操作比例与写操作比例相加为1。本发明能够指导在不同运行环境、不同负载场景下的压缩方式的选择,优化大数据处理性能。
-
公开(公告)号:CN104331518B
公开(公告)日:2017-12-29
申请号:CN201410709125.1
申请日:2014-11-27
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
Abstract: 本发明实施例提供的一种海量文件的存储方法和装置,可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。具体方案为:在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据;当所述待存储文件中的数据存储成功后,使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。
-
公开(公告)号:CN104102701B
公开(公告)日:2017-10-13
申请号:CN201410321111.2
申请日:2014-07-07
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
Abstract: 本发明提出一种基于hive的历史数据存档与查询方法,首先建立hive表,然后使用ETL工具导出源数据并验证,通过验证后将源数据导入hive表,以及基于Thrift接口从hive表中查询历史数据。本发明提出的所述方法能够向其它软件提供接口,并完成定制化历史数据导入和数据查询的功能。
-
公开(公告)号:CN104331518A
公开(公告)日:2015-02-04
申请号:CN201410709125.1
申请日:2014-11-27
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30094 , G06F17/30194
Abstract: 本发明实施例提供的一种海量文件的存储方法和装置,可以解决在.NET平台架构下利用HDFS存储数据时系统运行效率低以及部署成本高的问题。具体方案为:在.NET平台架构下通过IKVM.NET调用HDFS存储待存储文件中的数据;当所述待存储文件中的数据存储成功后,使用根据关系数据库创建的文件索引表存储所述待存储文件的索引信息。
-
公开(公告)号:CN104199899A
公开(公告)日:2014-12-10
申请号:CN201410425822.4
申请日:2014-08-26
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30253 , G06F17/30575
Abstract: 本发明公开了一种基于Hbase的海量图片存储方法及装置,包括:读取预设大小的结构化文本信息,并创建一个Mapfile文件;其中,结构化文本信息为图片的属性信息与图片的原始索引信息;确定读取的预设大小的结构化文本信息所对应的各个图片,将确定的各个图片以字节流的形式写入到已建立的Mapfile文件中;将读取的预设大小的结构化文本信息中的各个图片的属性信息以及各个图片所在的Mapfile文件的索引信息存储至HBase表中。本发明技术方案实现了将几十K的小图片合并成一个大文件,避免了因将海量几十K小图片直接存放到HDFS上产生大量元数据从而导致占用大量内存,避免了将海量图片存放到HBase的过程中导致的频繁的Hfile文件的Compaction及Region split,极大地提高了写入速度。
-
公开(公告)号:CN104182502A
公开(公告)日:2014-12-03
申请号:CN201410406481.6
申请日:2014-08-18
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30563 , G06F17/30595
Abstract: 本发明提供一种数据抽取方法,应用于关系型数据库,所述方法包括:根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;根据所述各数据分区的数据行数计算所述各数据分区的权重;根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明通过对将数据表分为若干数据分区,动态分配各数据分区的线程数,解决了各线程分配数据不均匀的问题,提高了关系型数据的数据抽取效率。
-
-
-
-
-
-
-
-
-