-
公开(公告)号:CN116016235B
公开(公告)日:2024-11-22
申请号:CN202310021189.1
申请日:2023-01-06
Applicant: 北京工业大学
IPC: H04L41/5067 , H04L43/55 , H04L41/14 , H04L41/0894 , H04L41/042 , H04L41/0233 , H04L43/04 , G06Q40/04
Abstract: 本发明提出了一种面向依赖交易的交易打包方法。首先,针对依赖交易的特点,对依赖交易进行相关定义,并在该定义的基础上提出了一个基于Goodput的兼顾系统吞吐量与用户服务质量的指标,并以最大化Goodput指标为目的进行问题建模;之后,针对依赖交易场景下用户服务质量问题,本发明提出了基于Jaya的交易打包方法。该方法对交易读写冲突进行优化的同时,得到一个最大化Goodput指标的打包结果,为了保证方法的收敛性和结果的最优性,本发明对方法进行了优化。最后,针对FIFO策略存在的交易分配区块过于分散的问题,本发明将同一用户的所有子交易聚合在同一区块处理,并设计了一个基于贪心方法的分配策略。
-
公开(公告)号:CN118260072A
公开(公告)日:2024-06-28
申请号:CN202410308663.3
申请日:2024-03-19
Applicant: 北京工业大学
Abstract: 本发明涉及一种基于日志的数据中心批处理任务负载生成方法,包括初始化、批处理任务负载资源使用序列的还原、批处理任务负载基本块的构建、批处理任务负载的提交执行。该方法根据日志中节点层面的粗粒度时序资源使用信息(采样时间间隔较长)、任务层面的任务实例统计量资源使用信息(CPU、内存使用率均值和峰值)及任务实例的开始时间与结束时间,以上述信息为约束使用启发式算法进行每一个批处理任务负载资源使用序列(内存、CPU序列)的还原;构建批处理任务负载基本块,产生任意序列所对应的波动形式的内存、CPU负载;将负载基本块以批处理任务负载资源使用序列为参数、按照日志记录的提交时间提交至节点进行负载的实际运行与测试。
-
公开(公告)号:CN110058812B
公开(公告)日:2022-11-22
申请号:CN201910174765.X
申请日:2019-03-08
Applicant: 中国农业科学院农业信息研究所 , 北京工业大学
IPC: G06F16/906 , G06F16/901 , G06K9/62
Abstract: 本发明设计了一种云环境下科学工作流数据放置方法,针对科学工作流数据密集及数据规模大的特征,首先根据工作流的数据和任务之间的关系,对数据进行预划分;然后把预划分的数据作为聚类的初始状态,结合数据规模及数据‑任务相关性特征,进行数据的聚类;最后结合数据中心可用存储容量的情况进行数据放置的决策和实施。实验证明本发明方法可以有效减少数据中心间的数据传输开销,提高数据放置的效率。
-
公开(公告)号:CN111309976B
公开(公告)日:2021-06-25
申请号:CN202010112523.0
申请日:2020-02-24
Applicant: 北京工业大学
IPC: G06F16/901 , G06F16/9035
Abstract: 本发明公开了一种面向收敛型图应用的GraphX数据缓存方法,分为9个步骤:初始化、顶点计算与标识更新,活跃顶点信息收集、过滤时机判断、顶点属性同步、顶点活跃状态同步、过期数据过滤、判断迭代计算是否结束和结束。本发明针对图中边规模远大于顶点规模的特点,着眼于边数据的缓存优化,将应用运行过程中不再使用的边定义为过期数据,通过以顶点为中心的间接标识方法,标识应用运行过程中的过期数据。本发明设计基于活跃顶点规模变化趋势的数据过滤方法,当活跃顶点规模显著减小时,进行过期数据的过滤,降低数据过滤的性能开销,同时保障应用在内存配置受限的情况下,系统能将计算所需的图数据完整缓存于内存空间,提升应用的执行效率。
-
公开(公告)号:CN109828836B
公开(公告)日:2021-04-30
申请号:CN201910050828.0
申请日:2019-01-20
Applicant: 北京工业大学
Abstract: 本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。
-
公开(公告)号:CN111309976A
公开(公告)日:2020-06-19
申请号:CN202010112523.0
申请日:2020-02-24
Applicant: 北京工业大学
IPC: G06F16/901 , G06F16/9035
Abstract: 本发明公开了一种面向收敛型图应用的GraphX数据缓存方法,分为9个步骤:初始化、顶点计算与标识更新,活跃顶点信息收集、过滤时机判断、顶点属性同步、顶点活跃状态同步、过期数据过滤、判断迭代计算是否结束和结束。本发明针对图中边规模远大于顶点规模的特点,着眼于边数据的缓存优化,将应用运行过程中不再使用的边定义为过期数据,通过以顶点为中心的间接标识方法,标识应用运行过程中的过期数据。本发明设计基于活跃顶点规模变化趋势的数据过滤方法,当活跃顶点规模显著减小时,进行过期数据的过滤,降低数据过滤的性能开销,同时保障应用在内存配置受限的情况下,系统能将计算所需的图数据完整缓存于内存空间,提升应用的执行效率。
-
公开(公告)号:CN110297715A
公开(公告)日:2019-10-01
申请号:CN201910592018.8
申请日:2019-07-02
Applicant: 北京工业大学
IPC: G06F9/50
Abstract: 本发明公开了一种基于周期性特征分析的在线负载资源预测方法,在线负载资源预测方法分为三个步骤,资源序列周期识别、子序列分类、在线负载资源预测方法构建。本方法针对在线负载在运行过程中资源使用量具有明显的周期性特征,收集在线负载资源序列样本,对资源序列进行周期识别以及资源序列划分;其次,对于划分得到的子序列进行相似度计算并分类;然后,采用加权方式计算在线负载资源需求进行预测,本方法实现了基于周期性的在线负载资源预测。
-
公开(公告)号:CN110058812A
公开(公告)日:2019-07-26
申请号:CN201910174765.X
申请日:2019-03-08
Applicant: 中国农业科学院农业信息研究所 , 北京工业大学
Abstract: 本发明设计了一种云环境下科学工作流数据放置方法,针对科学工作流数据密集及数据规模大的特征,首先根据工作流的数据和任务之间的关系,对数据进行预划分;然后把预划分的数据作为聚类的初始状态,结合数据规模及数据-任务相关性特征,进行数据的聚类;最后结合数据中心可用存储容量的情况进行数据放置的决策和实施。实验证明本发明方法可以有效减少数据中心间的数据传输开销,提高数据放置的效率。
-
公开(公告)号:CN108037998B
公开(公告)日:2019-05-24
申请号:CN201711247686.4
申请日:2017-12-01
Applicant: 北京工业大学
Abstract: 本发明公开一种面向Spark Streaming平台的数据接收通道动态分配方法,分配方法主要分为六个步骤:初始化、数据接收通道接收能力评估、基于马尔可夫链模型的流式数据到达速率变化状态预测、数据接收通道动态分配决策、数据接收通道组件回收与追增和回溯。本方法依据Spark Streaming应用的数据接收能力及流式数据到达速率的变化预测,为流式应用在线自动化地增加和减少数据通道的分配部署,确保数据处理的时效性以及提升通道组件资源和批处理引擎计算能力的利用率。
-
公开(公告)号:CN108614738A
公开(公告)日:2018-10-02
申请号:CN201810455119.6
申请日:2018-05-14
Applicant: 北京工业大学
IPC: G06F9/50
Abstract: 本发明公开了一种面向交互式Spark应用的数据动态放置方法,该方法分为五个步骤:初始化、缓存RDD分区价值评估、缓存RDD分区的保留选取、缓存RDD分区数据的重放置和结束。本发明针对Spark交互式应用在动态资源分配的背景下,RDD数据无法可靠放置的不足,在相邻交互请求间存在较长时间间隔时,依据任务执行器中缓存RDD分区的价值以及数据迁移的代价,利用粒子群算法进行缓存RDD分区数据的重放置,从而达到充分利用任务执行器的内存空间且提高交互式请求执行效率的目的。
-
-
-
-
-
-
-
-
-