-
公开(公告)号:CN108241539B
公开(公告)日:2021-05-07
申请号:CN201810004955.2
申请日:2018-01-03
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于分布式系统的交互式大数据查询方法、装置、存储介质及终端设备,所述分布式系统包括执行name node进程的hadoop hdfs调度服务器、执行master进程的spark调度服务器、执行job tracker进程的mapreduce调度服务器以及多个节点服务器,其中,每个节点服务器均部署有执行hdfs datanode进程、spark worker进程和mapreduce node进程。以及原始数据经过mapreduce的处理导入到hadoop hdfs中并进行格式优化,查询任务提交到spark上,会以最大的并发度执行,直接读取导入的数据进行本地化计算,能够极大的提高大数据查询的效率。
-
公开(公告)号:CN108241539A
公开(公告)日:2018-07-03
申请号:CN201810004955.2
申请日:2018-01-03
Applicant: 百度在线网络技术(北京)有限公司
Abstract: 本发明提出一种基于分布式系统的交互式大数据查询方法、装置、存储介质及终端设备,所述分布式系统包括执行name node进程的hadoop hdfs调度服务器、执行master进程的spark调度服务器、执行job tracker进程的mapreduce调度服务器以及多个节点服务器,其中,每个节点服务器均部署有执行hdfs datanode进程、spark worker进程和mapreduce node进程。以及原始数据经过mapreduce的处理导入到hadoop hdfs中并进行格式优化,查询任务提交到spark上,会以最大的并发度执行,直接读取导入的数据进行本地化计算,能够极大的提高大数据查询的效率。
-