一种面向Spark时间窗口数据分析的缓存数据预取方法

    公开(公告)号:CN110287010A

    公开(公告)日:2019-09-27

    申请号:CN201910507343.X

    申请日:2019-06-12

    Abstract: 本发明公开了一种面向Spark时间窗口数据分析的缓存数据预取方法,该方法分为6个步骤:初始化、判断预取时机、计算预取数据规模、确定预取数据放置位置、判断是否结束预取和结束。本发明依据时间窗口数据处理需求,以时间窗口为序,分段将时间窗口所需处理的RDD数据读入Spark缓存空间,并将已处理的RDD数据移出缓存,从而保障在缓存空间有限的情况下,每一个时间窗口需要处理的RDD数据均被成功缓存于内存空间,提升应用的执行效率。

    一种基于周期性特征分析的在线负载资源预测方法

    公开(公告)号:CN110297715A

    公开(公告)日:2019-10-01

    申请号:CN201910592018.8

    申请日:2019-07-02

    Abstract: 本发明公开了一种基于周期性特征分析的在线负载资源预测方法,在线负载资源预测方法分为三个步骤,资源序列周期识别、子序列分类、在线负载资源预测方法构建。本方法针对在线负载在运行过程中资源使用量具有明显的周期性特征,收集在线负载资源序列样本,对资源序列进行周期识别以及资源序列划分;其次,对于划分得到的子序列进行相似度计算并分类;然后,采用加权方式计算在线负载资源需求进行预测,本方法实现了基于周期性的在线负载资源预测。

    一种面向Spark Streaming平台的数据接收通道动态分配方法

    公开(公告)号:CN108037998B

    公开(公告)日:2019-05-24

    申请号:CN201711247686.4

    申请日:2017-12-01

    Abstract: 本发明公开一种面向Spark Streaming平台的数据接收通道动态分配方法,分配方法主要分为六个步骤:初始化、数据接收通道接收能力评估、基于马尔可夫链模型的流式数据到达速率变化状态预测、数据接收通道动态分配决策、数据接收通道组件回收与追增和回溯。本方法依据Spark Streaming应用的数据接收能力及流式数据到达速率的变化预测,为流式应用在线自动化地增加和减少数据通道的分配部署,确保数据处理的时效性以及提升通道组件资源和批处理引擎计算能力的利用率。

    一种基于周期性特征分析的在线负载资源预测方法

    公开(公告)号:CN110297715B

    公开(公告)日:2021-09-14

    申请号:CN201910592018.8

    申请日:2019-07-02

    Abstract: 本发明公开了一种基于周期性特征分析的在线负载资源预测方法,在线负载资源预测方法分为三个步骤,资源序列周期识别、子序列分类、在线负载资源预测方法构建。本方法针对在线负载在运行过程中资源使用量具有明显的周期性特征,收集在线负载资源序列样本,对资源序列进行周期识别以及资源序列划分;其次,对于划分得到的子序列进行相似度计算并分类;然后,采用加权方式计算在线负载资源需求进行预测,本方法实现了基于周期性的在线负载资源预测。

    一种面向Spark时间窗口数据分析的缓存数据预取方法

    公开(公告)号:CN110287010B

    公开(公告)日:2021-09-14

    申请号:CN201910507343.X

    申请日:2019-06-12

    Abstract: 本发明公开了一种面向Spark时间窗口数据分析的缓存数据预取方法,该方法分为6个步骤:初始化、判断预取时机、计算预取数据规模、确定预取数据放置位置、判断是否结束预取和结束。本发明依据时间窗口数据处理需求,以时间窗口为序,分段将时间窗口所需处理的RDD数据读入Spark缓存空间,并将已处理的RDD数据移出缓存,从而保障在缓存空间有限的情况下,每一个时间窗口需要处理的RDD数据均被成功缓存于内存空间,提升应用的执行效率。

    一种云环境下的深度学习训练资源配置预测方法

    公开(公告)号:CN111444026B

    公开(公告)日:2024-10-15

    申请号:CN202010313690.1

    申请日:2020-04-20

    Abstract: 本发明设计了一种云环境下深度学习训练资源参数配置方法,参数包含了批尺寸参数、资源供给量和迭代轮次数。该方法包括:采集模型训练过程中的每轮次性能指标;使用保序回归方法对批尺寸参数、资源供给量、迭代轮次数以及训练数据规模与训练耗时和训练精度之间的数学关系建立模型;依照云环境下深度学习模型训练成本及精度要求构建约束关系;使用最优搜索算法寻找合适的参数配置;最后按照参数配置进行模型训练。实验证明本发明方法可以有效减少深度学习模型训练时间成本并达到预设训练精度,最终满足训练要求。

    一种云环境下的深度学习训练资源配置预测方法

    公开(公告)号:CN111444026A

    公开(公告)日:2020-07-24

    申请号:CN202010313690.1

    申请日:2020-04-20

    Abstract: 本发明设计了一种云环境下深度学习训练资源参数配置方法,参数包含了批尺寸参数、资源供给量和迭代轮次数。该方法包括:采集模型训练过程中的每轮次性能指标;使用保序回归方法对批尺寸参数、资源供给量、迭代轮次数以及训练数据规模与训练耗时和训练精度之间的数学关系建立模型;依照云环境下深度学习模型训练成本及精度要求构建约束关系;使用最优搜索算法寻找合适的参数配置;最后按照参数配置进行模型训练。实验证明本发明方法可以有效减少深度学习模型训练时间成本并达到预设训练精度,最终满足训练要求。

    一种面向Spark Streaming平台的数据接收通道动态分配方法

    公开(公告)号:CN108037998A

    公开(公告)日:2018-05-15

    申请号:CN201711247686.4

    申请日:2017-12-01

    CPC classification number: G06F9/5027 G06K9/6297

    Abstract: 本发明公开一种面向Spark Streaming平台的数据接收通道动态分配方法,分配方法主要分为六个步骤:初始化、数据接收通道接收能力评估、基于马尔可夫链模型的流式数据到达速率变化状态预测、数据接收通道动态分配决策、数据接收通道组件回收与追增和回溯。本方法依据Spark Streaming应用的数据接收能力及流式数据到达速率的变化预测,为流式应用在线自动化地增加和减少数据通道的分配部署,确保数据处理的时效性以及提升通道组件资源和批处理引擎计算能力的利用率。

Patent Agency Ranking