-
公开(公告)号:CN117311904A
公开(公告)日:2023-12-29
申请号:CN202311271939.7
申请日:2023-09-28
Applicant: 浙江大学
Abstract: 一种面向集群联邦的大规模负载混部调度系统,包括:位于集群联邦层面的处理器、拓扑器、第一调度器以及全局队列;位于单集群层面的Cloud Agent、第二调度器、准入控制器以及每集群一个局部队列;位于每个节点服务器层面的Agent,Agent中包含两个模块:数据采集模块和驱逐模块,分别负责采集节点上的资源信息、cpi指标以及触发阈值后开启任务驱逐;处理器处理外部请求;拓扑器通过Cloud Agent写入ETCD的信息;第一调度器在集群层面通过资源匹配,确定目标集群;全局队列用于进行全局层面的任务等待、编排;Cloud Agent组件整合各节点上报的资源信息;第二调度器将任务匹配到对应节点上;准入控制器负责资源变更;局部队列用于本集群内部的任务等待、编排。
-
公开(公告)号:CN117032901A
公开(公告)日:2023-11-10
申请号:CN202311195119.4
申请日:2023-09-16
Applicant: 浙江大学
IPC: G06F9/455
Abstract: 本发明公开了一种基于节点负载感知的集群工作负载调度方法,通过采集集群节点资源历史使用情况数据,得到集群节点资源使用量,并计算集群节点过去一段时间资源最大使用量。进行工作负载调度时,将工作负载的资源申请量与集群每个节点过去一段时间的资源最大使用量相加,并除以集群资源总量,得到集群节点的预调度资源使用率,最后根据集群节点预调度资源使用率,计算每个节点的分数,并且选择分数最高的节点进行调度。本发明实现了均衡集群各节点资源真实利用率,降低了高负载和低负载节点出现的概率,提升了集群节点可靠性,并且达到了提升集群整体资源利用率的目的。
-
公开(公告)号:CN117221317A
公开(公告)日:2023-12-12
申请号:CN202311176890.7
申请日:2023-09-13
Applicant: 浙江大学
Abstract: 本发明公开了一种基于云边的设备数据高可用管理方法和装置,该方法在设备注册时配置设备特征,建立设备数据高可用策略,并筛选出候选节点组;进一步筛选出最优下发边缘节点进行下发部署,自动下发设备数据高可用策略;按照确定的数据上传方式向云端上传设备数据;云端控制器监控边缘节点的运行状态,若目标边缘节点由于节点崩溃而掉线时,通过相邻节点重新建立与设备之间的连接,恢复可自动迁移设备的运行;若目标边缘节点由于网络断连而掉线时,在相邻节点中决策出最优上传代理节点,目标边缘节点通过最优上传代理节点进行设备数据上传。本发明有利于提高设备数据的可用性,提升了数据价值,减少了数据的丢失风险。
-
-