基于进化神经网络的Spark参数自动优化系统和方法

    公开(公告)号:CN111461286B

    公开(公告)日:2022-03-29

    申请号:CN202010045384.4

    申请日:2020-01-15

    Abstract: 本发明公开了一种基于进化神经网络的Spark参数自动优化系统和方法,属于大数据处理系统性能优化领域。包括:收集不同Spark配置参数下相同Spark应用程序的运行时间,得到训练集,所述训练数据包括:Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间;使用训练集,采用遗传进化的思想训练神经网络模型,得到性能预测模型;使用性能预测模型,通过遗传算法搜索Spark最优配置参数。本发明采用进化神经网络,通过优化网络结构,使神经网络的结构尽可能简单,使用进化策略在现有的神经元中挑选优秀的作为下一代的起点,不断更迭。使用进化策略的神经网络能够更好地避免陷入局部最优,比起梯度下降,进化理论中的算法能够并行,大大减少训练时间。

    一种亚线性时间分布式计算围长的最小社区发现方法

    公开(公告)号:CN109948001B

    公开(公告)日:2021-04-20

    申请号:CN201910172846.6

    申请日:2019-03-07

    Abstract: 本发明公开了一种亚线性时间分布式计算围长的最小社区发现方法,属于分布式计算领域。包括:将社交网络抽象为平面图;找出平面图里所有连通子图;根据所有连通子图信息,找出每个连通子图的分割层;对于每个连通子图,从分割层出发逐层递进,寻找该连通子图分割层内的分离集;根据找到的分离集,以集合中的每个节点为根节点,构建对应的BFS树,并行计算每个节点的最短环路长度;围长为所有点的最短环路长度最小值,拥有最小长度的环为最小社区。本发明通过分布式计算围长,在分布式环境下得到图的所有连通子图、图中分割层和分离集,以分离集为基础,计算图的最短环路长度,大大降低集中式求解平面图围长的时间复杂度,快速正确地发现最小社区。

    一种分布式数据处理系统中的内存预估与配置优化的方法

    公开(公告)号:CN108415776B

    公开(公告)日:2020-10-09

    申请号:CN201810184254.1

    申请日:2018-03-06

    Abstract: 本发明涉及一种分布式数据处理系统中的内存预估与配置优化的方法,至少包括:将经过针对应用jar包中程序代码的条件分支和/或循环体分析及处理的程序数据流与数据特征库进行匹配,并基于匹配成功的结果预估至少一个阶段的内存上限,基于所述内存上限对应用程序进行配置参数优化,基于优化后应用程序的运行过程采集程序数据的静态特征和/或动态特征并进行持久化记录。本发明与机器学习进行内存预估的黑盒模型不同,机器学习预测的结果准确性不一定高,而且难以做到每个阶段的细粒度预测。而本发明利用程序分析和已有的数据特征较精确地预测到整体的内存占用,可以根据程序分析预估出job的每个阶段内存使用情况,做出更进一步的细粒度配置优化。

    一种图算法友善的强连通图划分方法

    公开(公告)号:CN107193899B

    公开(公告)日:2019-09-13

    申请号:CN201710323569.5

    申请日:2017-05-10

    Abstract: 本发明公开了一种图算法友善的强连通图划分方法,包括以下步骤:将图数据分解成若干个集合;利用多源宽度优先搜索算法将大小超过给定阈值的集合进一步划分成多个搜索树;利用启发式算法将搜索树组装成多个子图;本发明提供的强连通图划分方法可将强连通图划分成多个子图,而且与其他以割边即子图之间的边最小化、子图大小均衡为目标的现有hash或METIS划分方法均不同,在划分强连通图时考虑了边的方向和图数据的结构使得划分后的子图内部连通度较好、子图大小相对均衡,从而能有效提高图算法对其处理时的效率,解决在内存大小受限的限定条件下如何将大型强连通图划分成多个大小大致相同、连通度较好的子图的问题。

    一种基于减少进程间通信开销的并行I/O优化方法与系统

    公开(公告)号:CN104778088B

    公开(公告)日:2018-03-27

    申请号:CN201510181574.8

    申请日:2015-04-17

    Abstract: 本发明公开了一种基于进程亲和性的减少进程间通信从而提升并行I/O效率的方法,包括:首先对以Collective I/O为主流的并行I/O程序进行分析,收集和统计集群机器节点信息及MPI程序配置信息;然后,该系统通过预处理操作计算各种可能的机器节点与代理进程的匹配结果,然后再通过性能预测模块,确定最佳的匹配策略;最后将预处理得到的匹配策略写入配置文件中。实验结果表明,该系统配置简单,能在不用修改原程序代码的情况下,通过简单快递的预处理,为程序的运行确定最佳的进程分配方案,从而减少进程间通信开销,达到提升并行I/O性能的目的。

    分布式数据处理系统中缓解内存压力的调度方法和系统

    公开(公告)号:CN107066316A

    公开(公告)日:2017-08-18

    申请号:CN201710273273.7

    申请日:2017-04-25

    CPC classification number: G06F9/465 G06F9/5016

    Abstract: 本发明公开了一种分布式数据处理系统中减缓内存压力的调度方法,包括:根据用户编程接口对键值对的操作特点分析内存使用规律,建立数据处理系统中的用户编程接口的内存使用模型;根据任务调用编程接口的顺序推测任务的内存使用模型;利用内存占用增长率区分不同的模型;根据当前运行的任务的内存使用模型和处理数据量,在内存压力大时预估每个任务对内存压力的影响,挂起影响大的任务,直到影响小的任务执行完成或者内存压力被释放。本发明通过在数据处理系统中实时监控和分析运行时的所有任务对内存压力的影响,提高了服务系统的可扩展性。

    一种基于多线程的MapReduce执行系统

    公开(公告)号:CN103605576B

    公开(公告)日:2017-02-08

    申请号:CN201310602222.6

    申请日:2013-11-25

    Abstract: 本发明公开了一种基于多线程的MapReduce执行系统,包括:实现一个多线程的MapReduce执行引擎:将原有Hadoop中Map/Reduce任务的多进程执行模式改为多线程方式;提取Map任务和Reduce任务中对内存使用的细节特征,根据这些特征将MapReduce流程细粒度地分为多个阶段,并将原有Hadoop中shuffle过程由Reduce的拉取改为Map的主动推送;在MapReduce多线程执行引擎内部实现统一的内存管理模块和I/O管理模块,统一管理各个任务线程对内存的使用;设计全局的内存调度和IO调度算法,在作业执行过程中动态调度系统资源。本发明能够在用户完全无需修改原有MapReduce程序的基础上,最大化内存使用,充分利用磁盘带宽,解决原有Hadoop中一直存在的I/O瓶颈问题。

    一种基于性能预估的Hadoop参数自动优化方法和系统

    公开(公告)号:CN103064664B

    公开(公告)日:2015-07-22

    申请号:CN201210494961.3

    申请日:2012-11-28

    Abstract: 本发明公开了一种基于性能预估的Hadoop参数自动优化方法,包括:统计分析用户在Hadoop集群上运行的应用程序的运行特征,以生成输出文件,获取输出文件,并提取输出文件中各个阶段的运行时间、处理和传输的数据、为运行该Hadoop应用程序分配的资源、以及该Hadoop应用程序对应的参数配置方案,根据输出文件中各个阶段的运行时间、处理和传输的数据、为运行该Hadoop应用程序分配的资源、以及该Hadoop应用程序对应的参数配置方案,并采用MapReduce模拟技术来计算Hadoop应用程序的总运行时间t,根据预估的Hadoop应用程序在当前参数配置方案下的性能并采用遗传算法来调节Hadoop应用程序对应的参数配置方案。本发明能够解决现有方法中存在的高成本、低效率、高门槛、以及增加Hadoop代码复杂性的问题。

    一种基于性能预估的客户端缓存分配方法和系统

    公开(公告)号:CN103685544A

    公开(公告)日:2014-03-26

    申请号:CN201310720078.6

    申请日:2013-12-24

    Abstract: 本发明公开了一种基于性能预估的客户端缓存分配方法,包括以下过程:首先是统计并行文件系统中不同数据节点的负载,于此同时收集并行文件系统中网络速度,磁盘读写速度等信息,统计和收集到的信息将用以对不同系统客户端缓存分配策略进行性能预估,根据性能预估结果,系统将会选择能够带来最大性能的客户端缓存分配策略,根据选择的客户端缓存分配策略,不同的写请求被赋予不同的优先级,客户端缓存将被分配给优先级较高的写请求,而优先级较低的写请求将会直接被写入磁盘中。本发明能够解决现有并行文件系统客户端分配策略存在的高优先级和低效率的问题,最大化了有限的客户端缓存能够带来的性能提升。

    去中心化架构中使用多类型副本的分布式事务处理系统

    公开(公告)号:CN103164219A

    公开(公告)日:2013-06-19

    申请号:CN201310005857.8

    申请日:2013-01-08

    Abstract: 本发明公开了一种去中心化架构中使用多类型副本的分布式事务处理系统,包括事务接口模块、事务处理模块和事务存储模块,事务接口模块包括对外接口子模块和事务预处理子模块,事务处理模块包括多类型副本子模块、读事务处理模块、副本组事务状态子模块、读请求分发子模块、副本修复子模块、MVCC读取子模块、局部写事务处理子模块、局部写事务Paxos副本一致性子模块、局部写事务提交子模块、全局写事务处理子模块、主要子事务Paxos副本一致性子模块、次级子事务Paxos副本一致性子模块和全局写事务提交子模块,本发明能够解决现有系统中存在的针对的读写环境很局限,无法根据应用的需求自行配置读写可用性,以及全局事务依赖于加锁,代价较高的问题。

Patent Agency Ranking