-
公开(公告)号:CN112667170B
公开(公告)日:2024-04-05
申请号:CN202110036036.5
申请日:2021-01-12
Applicant: 北京工业大学
Abstract: 一种面向滑动窗口数据分析的Spark数据缓存方法.主要分为六个步骤:初始化,选取待预取的滑动窗口,选取数据块的放置位置,判断窗口是否满足时间条件,执行预取操作和周期性执行.本发明利用启发式搜索策略选取待预取窗口和数据块的放置方案,从空间和时间角度保证数据预取的有效性和可靠性,利用预取技术提高滑动窗口数据分析的计算效率。
-
公开(公告)号:CN112667170A
公开(公告)日:2021-04-16
申请号:CN202110036036.5
申请日:2021-01-12
Applicant: 北京工业大学
Abstract: 一种面向滑动窗口数据分析的Spark数据缓存方法.主要分为六个步骤:初始化,选取待预取的滑动窗口,选取数据块的放置位置,判断窗口是否满足时间条件,执行预取操作和周期性执行.本发明利用启发式搜索策略选取待预取窗口和数据块的放置方案,从空间和时间角度保证数据预取的有效性和可靠性,利用预取技术提高滑动窗口数据分析的计算效率。
-
公开(公告)号:CN112667591A
公开(公告)日:2021-04-16
申请号:CN202110036506.8
申请日:2021-01-12
Applicant: 北京工业大学
IPC: G06F16/18 , G06F16/906 , G06N3/08 , G06F9/50
Abstract: 本发明公开了一种基于海量日志的数据中心任务干扰预测方法,分为五个步骤:初始化、日志任务分类、任务干扰分布矩阵构建、任务干扰预测模型构建、任务干扰预测。本发明针对批处理任务,提取了海量日志中与任务干扰相关的特征属性集,基于所提取的特征属性集使用聚类的方法将负载任务进行分类,并根据任务类间混合运行的时间序列关系,利用卷积神经网络构建任务干扰预测模型。本发明设计基于卷积神经网络的训练构建方法,可预测出在任意混合运行模式下,任务受到的性能干扰程度,对任务的部署调度有较强的指导意义。
-
公开(公告)号:CN109828836A
公开(公告)日:2019-05-31
申请号:CN201910050828.0
申请日:2019-01-20
Applicant: 北京工业大学
Abstract: 本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。
-
公开(公告)号:CN111309976B
公开(公告)日:2021-06-25
申请号:CN202010112523.0
申请日:2020-02-24
Applicant: 北京工业大学
IPC: G06F16/901 , G06F16/9035
Abstract: 本发明公开了一种面向收敛型图应用的GraphX数据缓存方法,分为9个步骤:初始化、顶点计算与标识更新,活跃顶点信息收集、过滤时机判断、顶点属性同步、顶点活跃状态同步、过期数据过滤、判断迭代计算是否结束和结束。本发明针对图中边规模远大于顶点规模的特点,着眼于边数据的缓存优化,将应用运行过程中不再使用的边定义为过期数据,通过以顶点为中心的间接标识方法,标识应用运行过程中的过期数据。本发明设计基于活跃顶点规模变化趋势的数据过滤方法,当活跃顶点规模显著减小时,进行过期数据的过滤,降低数据过滤的性能开销,同时保障应用在内存配置受限的情况下,系统能将计算所需的图数据完整缓存于内存空间,提升应用的执行效率。
-
公开(公告)号:CN109828836B
公开(公告)日:2021-04-30
申请号:CN201910050828.0
申请日:2019-01-20
Applicant: 北京工业大学
Abstract: 本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。
-
公开(公告)号:CN111309976A
公开(公告)日:2020-06-19
申请号:CN202010112523.0
申请日:2020-02-24
Applicant: 北京工业大学
IPC: G06F16/901 , G06F16/9035
Abstract: 本发明公开了一种面向收敛型图应用的GraphX数据缓存方法,分为9个步骤:初始化、顶点计算与标识更新,活跃顶点信息收集、过滤时机判断、顶点属性同步、顶点活跃状态同步、过期数据过滤、判断迭代计算是否结束和结束。本发明针对图中边规模远大于顶点规模的特点,着眼于边数据的缓存优化,将应用运行过程中不再使用的边定义为过期数据,通过以顶点为中心的间接标识方法,标识应用运行过程中的过期数据。本发明设计基于活跃顶点规模变化趋势的数据过滤方法,当活跃顶点规模显著减小时,进行过期数据的过滤,降低数据过滤的性能开销,同时保障应用在内存配置受限的情况下,系统能将计算所需的图数据完整缓存于内存空间,提升应用的执行效率。
-
-
-
-
-
-