-
公开(公告)号:CN117331678B
公开(公告)日:2024-04-19
申请号:CN202311632017.4
申请日:2023-12-01
Applicant: 之江实验室
Abstract: 本申请涉及一种面向异构算力联邦的多集群作业资源规格计算方法和系统,其中,面向异构算力联邦的多集群作业资源规格计算方法包括:监测资源数据的变更获得第一目标事件和第二目标事件;基于所述第二目标事件生成资源规格数据,获得当前资源状况下多集群的资源规格方案;根据所述第一目标事件对应的目标作业的资源需求属性对当前资源状况下多集群的资源规格方案进行筛选,获得多个可选资源规格方案;根据所述目标作业的资源需求总量,遍历所述多个可选资源规格方案,获得最优资源规格方案,并根据所述最优资源规格方案修改所述目标作业的初始资源规格配置,提高了在多集群和高性能计算环境中处理零散碎片的效率和主动性。
-
公开(公告)号:CN116700933A
公开(公告)日:2023-09-05
申请号:CN202310966044.9
申请日:2023-08-02
Applicant: 之江实验室
Abstract: 本申请涉及一种面向异构算力联邦的多集群作业调度系统和方法,所述系统包括:事件感知模块、作业队列管理模块、资源拓扑生成模块和调度决策生成模块;所述资源拓扑生成模块,用于根据所述事件感知模块分配的目标事件生成资源拓扑数据;所述资源拓扑数据包括根据所述目标事件对应的节点信息拓扑生成的多个集群的集群信息;所述调度决策生成模块,用于根据从所述作业队列管理模块中获取的待调度的目标作业和从所述资源拓扑生成模块获取的资源拓扑数据,生成调度结果。本申请通过节点信息到多个集群的集群信息的拓扑,从而实现了多个集群的跨集群资源分配。
-
公开(公告)号:CN116708454B
公开(公告)日:2023-12-05
申请号:CN202310962997.8
申请日:2023-08-02
Applicant: 之江实验室
IPC: H04L67/1012 , H04L67/1029 , H04L47/76 , H04L47/783
Abstract: 本申请涉及一种多集群云计算系统及多集群作业分发方法,该系统包括控制集群和多个算力集群,算力集群包括一个或多个计算节点,控制集群包括:资源采集模块,用于采集各算力集群的资源分布信息和资源使用率;共享资源分配模块,用于基于共享策略,将各算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种;作业分发决策模块,用于基于各算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群;作业平衡模块,用于在作业对共享资源的占用满足共享策略的迁移条件的情况下,释放作业占用的共享资源,保持各算力集群资源的动态平衡,解决了多集群管控平台无法实现负载自动调整的问题。
-
公开(公告)号:CN116708454A
公开(公告)日:2023-09-05
申请号:CN202310962997.8
申请日:2023-08-02
Applicant: 之江实验室
IPC: H04L67/1012 , H04L67/1029 , H04L47/76 , H04L47/783
Abstract: 本申请涉及一种多集群云计算系统及多集群作业分发方法,该系统包括控制集群和多个算力集群,算力集群包括一个或多个计算节点,控制集群包括:资源采集模块,用于采集各算力集群的资源分布信息和资源使用率;共享资源分配模块,用于基于共享策略,将各算力集群的算力资源配置为独占资源、共享资源和预留资源中的至少一种;作业分发决策模块,用于基于各算力集群的资源分布信息和资源使用率,确定各作业对应的目标算力集群;作业平衡模块,用于在作业对共享资源的占用满足共享策略的迁移条件的情况下,释放作业占用的共享资源,保持各算力集群资源的动态平衡,解决了多集群管控平台无法实现负载自动调整的问题。
-
公开(公告)号:CN117707794B
公开(公告)日:2024-06-18
申请号:CN202410160828.7
申请日:2024-02-05
Applicant: 之江实验室
Abstract: 本发明公开了一种面向异构联邦的多类别作业分发管理方法和系统,所述方法包括:获取自定义的作业资源;监听自定义的作业资源的创建事件、删除事件和/或更新事件;当自定义的作业资源已完成调度后,响应于自定义的作业资源的创建事件和/或更新事件,根据作业类型将自定义的作业资源渲染成对应的计算作业实例;根据自定义的作业资源的调度结果,将渲染后的计算作业实例分发至对应的计算集群;监听计算集群中计算作业实例的状态变更事件,从而更新自定义的作业资源的当前状态。本发明能够在异构的多集群环境中,对不同类型作业进行抽象,形成可被调度器调度的自定义作业资源,统一进行作业渲染、分发和作业生命周期维护。
-
公开(公告)号:CN117707794A
公开(公告)日:2024-03-15
申请号:CN202410160828.7
申请日:2024-02-05
Applicant: 之江实验室
Abstract: 本发明公开了一种面向异构联邦的多类别作业分发管理方法和系统,所述方法包括:获取自定义的作业资源;监听自定义的作业资源的创建事件、删除事件和/或更新事件;当自定义的作业资源已完成调度后,响应于自定义的作业资源的创建事件和/或更新事件,根据作业类型将自定义的作业资源渲染成对应的计算作业实例;根据自定义的作业资源的调度结果,将渲染后的计算作业实例分发至对应的计算集群;监听计算集群中计算作业实例的状态变更事件,从而更新自定义的作业资源的当前状态。本发明能够在异构的多集群环境中,对不同类型作业进行抽象,形成可被调度器调度的自定义作业资源,统一进行作业渲染、分发和作业生命周期维护。
-
公开(公告)号:CN117331678A
公开(公告)日:2024-01-02
申请号:CN202311632017.4
申请日:2023-12-01
Applicant: 之江实验室
Abstract: 本申请涉及一种面向异构算力联邦的多集群作业资源规格计算方法和系统,其中,面向异构算力联邦的多集群作业资源规格计算方法包括:监测资源数据的变更获得第一目标事件和第二目标事件;基于所述第二目标事件生成资源规格数据,获得当前资源状况下多集群的资源规格方案;根据所述第一目标事件对应的目标作业的资源需求属性对当前资源状况下多集群的资源规格方案进行筛选,获得多个可选资源规格方案;根据所述目标作业的资源需求总量,遍历所述多个可选资源规格方案,获得最优资源规格方案,并根据所述最优资源规格方案修改所述目标作业的初始资源规格配置,提高了在多集群和高性能计算环境中处理零散碎片的效率和主动性。
-
-
-
-
-
-
-