-
公开(公告)号:CN111027708A
公开(公告)日:2020-04-17
申请号:CN201911197591.5
申请日:2019-11-29
Applicant: 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 , 杭州电子科技大学 , 浙江曙光信息技术有限公司
Abstract: 本发明公布一种面向分布式机器学习的参数通信优化方法。本发明将机器学习迭代-收敛算法的容错特性进行扩展,提出了动态有限容错特性,并基于动态有限容错性实现了一种分布式机器学习参数通信优化策略,通过动态调节各计算节点与参数服务器的同步策略结合性能检测模型,充分利用各计算节点的性能,保证机器学习模型准确率;保证计算资源充足,模型的训练过程不受分布式计算资源动态变化的影响;将训练算法和系统硬件资源进行解耦,解放了开发人员凭经验手工进行计算资源的分配以及数据通信调优的过程,有效的提高了程序在各种集群环境下的扩展性和较高的执行效率。本发明可应用于分布式机器学习参数通信的优化、集群计算性能的优化等领域中。
-
公开(公告)号:CN110888744A
公开(公告)日:2020-03-17
申请号:CN201911197352.X
申请日:2019-11-29
Applicant: 杭州电子科技大学 , 浙江曙光信息技术有限公司
Abstract: 本发明公开了一种基于工作量自动调优的负载均衡方法。本发明通过自动化调优的方式为集群中每个计算节点找出最优工作量大小,并将全部计算节点的工作量汇总为一个最优工作量比例数组,然后将该数组运用到分布式机器学习模型训练中以达到平衡集群负载的效果。本发明通过自动化调优的方式为集群中每个计算节点找出最优工作量大小,从而有效地平衡了各节点之间的性能差异,有效缓解了滞后问题,提高了分布式机器学习模型训练的整体性能。
-
公开(公告)号:CN110888744B
公开(公告)日:2022-06-14
申请号:CN201911197352.X
申请日:2019-11-29
Applicant: 杭州电子科技大学 , 浙江曙光信息技术有限公司
Abstract: 本发明公开了一种基于工作量自动调优的负载均衡方法。本发明通过自动化调优的方式为集群中每个计算节点找出最优工作量大小,并将全部计算节点的工作量汇总为一个最优工作量比例数组,然后将该数组运用到分布式机器学习模型训练中以达到平衡集群负载的效果。本发明通过自动化调优的方式为集群中每个计算节点找出最优工作量大小,从而有效地平衡了各节点之间的性能差异,有效缓解了滞后问题,提高了分布式机器学习模型训练的整体性能。
-
公开(公告)号:CN110046048B
公开(公告)日:2021-09-28
申请号:CN201910314058.6
申请日:2019-04-18
Applicant: 杭州电子科技大学
IPC: G06F9/50
Abstract: 本发明公开了一种基于工作量自适应快速重分配(Adaptive Fast Reassignment,AdaptFR)的负载均衡方法,该方法通过性能监控工具获得各计算节点的性能参数,然后按照性能模型为每个计算节点重新分配工作量,使慢节点获得较少的计算量,快节点获得较多的计算量,借此平衡各节点之间的完成单次迭代的时间,从而间接性地平衡了集群的负载,提高了模型训练的性能。
-
公开(公告)号:CN110046048A
公开(公告)日:2019-07-23
申请号:CN201910314058.6
申请日:2019-04-18
Applicant: 杭州电子科技大学
IPC: G06F9/50
Abstract: 本发明公开了一种基于工作量自适应快速重分配(Adaptive Fast Reassignment,AdaptFR)的负载均衡方法,该方法通过性能监控工具获得各计算节点的性能参数,然后按照性能模型为每个计算节点重新分配工作量,使慢节点获得较少的计算量,快节点获得较多的计算量,借此平衡各节点之间的完成单次迭代的时间,从而间接性地平衡了集群的负载,提高了模型训练的性能。
-
-
-
-