一种面向三级并行中间件的计算资源自动分配方法及系统

    公开(公告)号:CN114356550B

    公开(公告)日:2024-09-24

    申请号:CN202111503888.7

    申请日:2021-12-10

    Applicant: 武汉大学

    Abstract: 本发明公开了一种面向三级并行中间件的计算资源自动分配方法及系统,以分布式技术、中间件和计算机组成结构为指导理论,针对在集群环境下进行大规模计算的任务,本发明提出了一种面向三级并行中间件的计算资源自动分配模型。该模型可将在集群下进行的计算任务进行分析,首先通过消息中间件以队列的形式将任务分配给每个计算单元,然后再计算单元内将任务再次分配给CPU和GPU。本发明除了可以应用在集群上,当任务规模不大时,也可作用于单台电脑。把单机上的计算任务合理分配给CPU和GPU,使二者能够同时进行运算,提高计算速率。利用本发明可以在集群模式下计算任务大的背景下,将计算速度进一步提高。

    一种基于TR-DQN的高性能计算集群资源调度方法及系统

    公开(公告)号:CN117591273A

    公开(公告)日:2024-02-23

    申请号:CN202311483923.2

    申请日:2023-11-06

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于TR‑DQN的高性能计算集群资源调度方法及系统,首先用户提交任务请求,所有请求进入等待队列等待调度;然后计算提交任务的优先级,并对等待队列进行重排序;接着收集和处理集群的节点信息和任务信息,将处理后的数据输入至TR‑DQN模型进行调度;最后任务调度完成之后进入对应节点运行。TR‑DQN模型将高性能计算集群调度的特点结合到深度强化学习中,并引入两级神经网络结构,第一级神经网络用于选择立即执行或预留执行的任务,第二级神经网络用于选择用于回填的任务,可以提高集群的资源利用率、减少任务的等待时间,并能快速适应集群负载环境的变化,此外,还能最大限度地减少集群的工作饥饿问题。

    面向大规模差分算子的资源并行调度与优化方法及系统

    公开(公告)号:CN115509743A

    公开(公告)日:2022-12-23

    申请号:CN202211126572.5

    申请日:2022-09-16

    Applicant: 武汉大学

    Abstract: 本发明公开了一种面向大规模差分算子的资源并行调度与优化方法及系统,本发明以分布式计算、计算机系统与结构和分片技术为指导思想,使用分布式框架将任务执行单元与主机相连,组成集群,并在集群的环境下使用中间件,具有自动并行化翻译和资源调度的功能。针对大规模算子,分析算子结构,寻找共性,将其不同之处提取出来作为参数传递,并翻译出其并行化代码。本发明不仅可以实现算子在集群上的高效计算,而且可以对其他串行程序转换为并行程序的课题起到帮助作用。灵活变动后,除了可以使待处理的任务在集群上运行,若任务量较小,也可以在单独的主机上实现CPU\GPU的在协同计算。

    一种面向三级并行中间件的计算资源自动分配方法及系统

    公开(公告)号:CN114356550A

    公开(公告)日:2022-04-15

    申请号:CN202111503888.7

    申请日:2021-12-10

    Applicant: 武汉大学

    Abstract: 本发明公开了一种面向三级并行中间件的计算资源自动分配方法及系统,以分布式技术、中间件和计算机组成结构为指导理论,针对在集群环境下进行大规模计算的任务,本发明提出了一种面向三级并行中间件的计算资源自动分配模型。该模型可将在集群下进行的计算任务进行分析,首先通过消息中间件以队列的形式将任务分配给每个计算单元,然后再计算单元内将任务再次分配给CPU和GPU。本发明除了可以应用在集群上,当任务规模不大时,也可作用于单台电脑。把单机上的计算任务合理分配给CPU和GPU,使二者能够同时进行运算,提高计算速率。利用本发明可以在集群模式下计算任务大的背景下,将计算速度进一步提高。

    一种基于Slurm中间件的资源调度方法及系统

    公开(公告)号:CN117555676A

    公开(公告)日:2024-02-13

    申请号:CN202311474137.6

    申请日:2023-11-06

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于Slurm中间件的资源调度方法及系统,首先接收用户发送的作业提交请求;根据配置的拦截规则对提交的作业进行拦截;计算作业的优先级,并根据优先级对作业队列进行重排序;然后利用查询命令获取集群的所有节点信息和作业信息;从作业队列中读取作业,根据作业信息和集群状态进行调度;最后,作业调度完成之后进入对应节点进行计算。本发明可以提高集群的资源利用率和减少集群的工作饥饿问题,同时,采用中间件的架构进行设计,可以将调度和管理逻辑独立出来,与底层系统解耦,从而不会对原有高性能计算系统产生很大的侵入性,让系统更加高效地部署和扩展。

Patent Agency Ranking