-
公开(公告)号:CN104516985A
公开(公告)日:2015-04-15
申请号:CN201510020951.X
申请日:2015-01-15
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F16/221 , G06F16/211 , G06F16/215 , G06F16/2282 , G06F16/27
Abstract: 提出一种基于HBase的海量数据快速导入方法,基于HBase数据库中表的格式,对数据源中的数据进行拆分;基于数据源中数据量的大小和HBase数据库中行键的设计,在建立所述表的时候进行预分区;设置HBase数据库的预写日志系统,关闭自动提交功能,设置缓存大小;启用多线程,将所述数据导入HBase数据库的表中。所述方法不需要对数据源进行预处理,方便操作,提高了效率。
-
公开(公告)号:CN104408147A
公开(公告)日:2015-03-11
申请号:CN201410722793.8
申请日:2014-12-02
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30194
Abstract: 提出一种多线程数据上传方法,所述方法配置需要上传的文件所在源路径信息、文件需要上传到HDFS系统的目的路径信息以及可以使用的线程数目信息;根据所述需要上传的文件的数据量和配置的所述线程数目信息确定每个线程需要处理的数据范围;基于配置的所述信息和确定的所述数据范围执行多线程并行数据上传。所述方法将一个大的文本文件分为多个文件并行上传到HDFS系统中,从而提高写入速度,大大降低了文件上传的时间。
-
公开(公告)号:CN104050291A
公开(公告)日:2014-09-17
申请号:CN201410306448.6
申请日:2014-06-30
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30445 , G06F17/30318
Abstract: 本发明公开了一种账户余额数据的并行处理方法,该方法包括:一个或多个执行第一任务的Map节点读取账户余额明细数据的不同分片数据,生成所读取的分片数据中每一条余额记录的第一输出参数和第二输出参数;其中,所述第一输出参数至少包括账户ID,所述第二输出参数设定为账户状态信息,所述账户状态信息至少包括:余额值、交易日期和当天交易序号;一个或多个执行第一任务的Reduce节点读取所述执行第一任务的Map节点处理完毕的不同余额记录,根据所述余额记录的第一输出参数和第二输出参数分别生成各账户的日均余额值记录;其中,第一输出参数相同的余额记录由同一个Reduce节点读取。本发明能够快速获取大数据量下的帐户日均余额的统计结果。本发明还公开了一种账户余额数据的并行处理系统。
-
公开(公告)号:CN103970874A
公开(公告)日:2014-08-06
申请号:CN201410203430.3
申请日:2014-05-14
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30666 , G06F17/30194
Abstract: 本发明公开了一种实现Hadoop文件处理的方法及装置,包括:读取需要处理的分布式文件系统(Hadoop)的文本文件;逐行提取文本文件并转换为映射(Map)规约(Reduce)接受的数据类型的内容;逐行读取转换后的文本文件内容,以确定是否进行断行处理。本发明通过将读取的文本文件直接转换为MapReduce接受的数据类型的内容,逐行的对处理为断行的内容进行确定,节省了预处理过程中删除CR造成的耗时,且不需要额外占用磁盘空间。
-
-
-