一种面向Spark的批处理应用执行时间预测模型构建方法

    公开(公告)号:CN111309577B

    公开(公告)日:2024-04-23

    申请号:CN202010102494.X

    申请日:2020-02-19

    Abstract: 一种面向Spark的批处理应用执行时间预测模型构建方法属于分布式计算领域。本发明提出了一种考虑了不同应用特征的Spark批处理应用执行时间预测模型,首先根据Spark系统中批处理应用执行原理选取分类方法影响因素,从中筛选出强相关指标并构建批处理应用执行时间分类方法,然后在每一类批处理应用中充分分析了影响应用执行时间的指标并利用主成分分析法(PCA)和梯度提升决策树算法(GBDT)对应用执行时间进行预测,最后当即席应用到达之后,先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。

    一种面向Spark的批处理应用执行时间预测模型构建方法

    公开(公告)号:CN111309577A

    公开(公告)日:2020-06-19

    申请号:CN202010102494.X

    申请日:2020-02-19

    Abstract: 一种面向Spark的批处理应用执行时间预测模型构建方法属于分布式计算领域。本发明提出了一种考虑了不同应用特征的Spark批处理应用执行时间预测模型,首先根据Spark系统中批处理应用执行原理选取分类方法影响因素,从中筛选出强相关指标并构建批处理应用执行时间分类方法,然后在每一类批处理应用中充分分析了影响应用执行时间的指标并利用主成分分析法(PCA)和梯度提升决策树算法(GBDT)对应用执行时间进行预测,最后当即席应用到达之后,先判断其所属应用类别继而使用已构建的预测模型来预测其执行时间。

    一种批量流式计算系统参数动态配置方法

    公开(公告)号:CN109828836A

    公开(公告)日:2019-05-31

    申请号:CN201910050828.0

    申请日:2019-01-20

    Abstract: 本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。

    一种批量流式计算系统参数动态配置方法

    公开(公告)号:CN109828836B

    公开(公告)日:2021-04-30

    申请号:CN201910050828.0

    申请日:2019-01-20

    Abstract: 本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。

Patent Agency Ranking