-
公开(公告)号:CN118055023B
公开(公告)日:2024-10-11
申请号:CN202410186002.8
申请日:2024-02-20
Applicant: 中国科学院计算机网络信息中心
IPC: H04L41/084 , H04L41/08 , H04L41/0897 , H04L67/1095 , G06F9/50
Abstract: 本发明提供一种跨节点并行计算任务局部进程迁移的方法,包括以下步骤:步骤1,计算任务的启动配置脚本的配置过程;步骤2,计算任务容器化部署过程;步骤3,容器运行时迁移过程。本发明实现MPI并行计算任务的容器化部署和单容器的跨节点迁移,相比于全部进程迁移,通过单容器实现局部进程迁移的方式,引入的存储开销和检查点开销更小,同时可以保持计算任务整体不中断运行,更加灵活的支撑容错、负载均衡、弹性调度等场景。
-
公开(公告)号:CN114490059A
公开(公告)日:2022-05-13
申请号:CN202210081531.2
申请日:2022-01-24
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明涉及一种网格中间件的部署方法,包括:当检测到可发布软件仓库中存在最新版本的网格中间件时,确定第一标识。然后,根据第一标识确定第二标识。之后,根据第一标识和第二标识确定部署声明文件。根据部署声明文件确定相应服务器的部署指令,并发送部署指令至相应服务器上。相应服务器可以根据部署指令部署最新版本的网格中间件。本发明通过实时监测可发布软件仓库并确定出部署声明文件,以便可以根据该部署声明文件对相应的服务器部署最新版本的网格中间件。实现了网格中间件的分布式部署,并且可以将软件更新快速交付给用户使用。
-
公开(公告)号:CN107645423A
公开(公告)日:2018-01-30
申请号:CN201610578369.X
申请日:2016-07-21
Applicant: 中国科学院计算机网络信息中心
IPC: H04L12/26
Abstract: 本发明涉及一种监控数据的展示系统及其方法,该系统包括:环境监控平台、监控数据接口和监控数据展示平台;环境监控平台包括用于获取集群和服务器的各种插件,通过各种插件获取相应的监控数据;监控数据接口,用于将环境监控平台获取的监控数据以接口的形式对外提供数据;监控数据展示平台,用于获取监控数据接口对外提供的数据,以及对该数据从不同维度进行展示。本发明提供的一种监控数据的展示系统及其方法,通过环境监控平台获取集群的运维数据,以及通过监控数据展示平台展示整个超级计算环境以及详细准确地反映集群的运行情况。
-
公开(公告)号:CN118055023A
公开(公告)日:2024-05-17
申请号:CN202410186002.8
申请日:2024-02-20
Applicant: 中国科学院计算机网络信息中心
IPC: H04L41/084 , H04L41/08 , H04L41/0897 , H04L67/1095 , G06F9/50
Abstract: 本发明提供一种跨节点并行计算任务局部进程迁移的方法,包括以下步骤:步骤1,计算任务的启动配置脚本的配置过程;步骤2,计算任务容器化部署过程;步骤3,容器运行时迁移过程。本发明实现MPI并行计算任务的容器化部署和单容器的跨节点迁移,相比于全部进程迁移,通过单容器实现局部进程迁移的方式,引入的存储开销和检查点开销更小,同时可以保持计算任务整体不中断运行,更加灵活的支撑容错、负载均衡、弹性调度等场景。
-
公开(公告)号:CN111709623A
公开(公告)日:2020-09-25
申请号:CN202010499068.4
申请日:2020-06-04
Applicant: 中国科学院计算机网络信息中心 , 中央财经大学
Abstract: 本申请公开了高性能计算环境评价方法、装置、电子设备及存储介质,该方法通过一个主模型和若干子模型实现,该方法包括:各个子模型分别自动获取对应节点单位的用于评价的计算运行数据;主模型获取各子模型的所述计算运行数据;主模型根据所述计算运行数据确定计算环境综合评价值;并根据所述计算环境综合评价值确定高性能计算环境发展水平。本申请的有益效果在于,通过主模型和子模型的配合,能够自动、实时地对各个高性能计算节点单位的计算运行数据进行统计和查询,从而实现了对高性能计算环境的实时动态监测以及智能分析研判,在节省大量人力工作的同时,显著提高了高性能计算环境评价的准确性,极大地促进了高性能计算资源的优化配置。
-
公开(公告)号:CN103380608B
公开(公告)日:2015-12-02
申请号:CN201180067929.0
申请日:2011-03-09
Applicant: 中国科学院计算机网络信息中心
IPC: H04L29/06
CPC classification number: H04L47/30 , G06F9/5027 , G06F11/3006 , G06F11/3048 , G06F11/3055 , G06F11/3068 , G06F11/3409 , G06F11/3466
Abstract: 一种在计算环境中汇聚队列信息及作业信息的方法,其中所述计算环境具有三层多叉树状的组织结构,这种组织结构包括一个主节点作为根节点、多个分节点作为中间层节点,和多个高性能计算机作为叶子节点,其中主节点管理整个计算环境,包括所有分节点和高性能计算机;分节点管理其所辖的高性能计算机,所述方法的特征在于包括以下步骤:a.分节点读取其所辖的高性能计算机的信息;b.分节点根据读取的高性能计算机的信息,周期性地连接到其所辖的高性能计算机,根据其作业管理系统类型的不同而使用不同的命令,获取队列信息及作业信息;c.分节点将获取的队列信息及作业信息转化成指定的格式,并且报告给主节点,从而使得主节点及时获取最新的计算环境的整体运行情况;d.主节点根据整体运行情况,使用调度策略,完成作业自动调度功能。
-
公开(公告)号:CN119363823A
公开(公告)日:2025-01-24
申请号:CN202411485998.9
申请日:2024-10-23
Applicant: 中国科学院计算机网络信息中心
IPC: H04L67/566 , H04L67/563 , H04L67/06 , H04L67/141
Abstract: 本申请提供一种基于消息系统的跨节点异步数据传输方法,用于高性能计算环境,包括第一代理服务器接收客户端发送的文件申请请求,将文件申请请求发送到消息系统,消息系统存储文件申请请求和待传输数据,第二代理服务器从消息系统的逻辑容器中拉取文件申请请求,根据客户端信息与目标HPC服务器建立文件传输通道。本发明中的数据传输系统通过简单地新增前端节点、后端节点以及消息系统中的逻辑容器,即可扩展HPC服务器的数量,从而实现了系统的低耦合度和高可扩展性,同时提高了数据传输的可靠性和容错性,传输过程中如果某一节点出现故障,系统能够快速进行节点更新和恢复,确保传输过程稳定。
-
公开(公告)号:CN112882935A
公开(公告)日:2021-06-01
申请号:CN202110206625.3
申请日:2021-02-24
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明提供一种分布式环境运行状态的诊断方法及装置。在一个实施例中,从至少一个设备上采集与分布式环境运行状态相关的数据,并根据目标环境的分析需求,从多种角度对采集的数据进行分析并生成分析结果;然后将该分析结果转化为相应数值范围内的分项状态分值,以及求取该分项状态分值合成的环境总体状态分值;根据该环境总体状态分值对分布式环境运行状态进行判断。通过环境总体状态分值对分布式环境状态进行判断使得相关运维人员能够直观的获取环境信息和快速定位问题。由于整个环节绝大部分处理分析工作是由程序自动完成,极大减少了人工操作量,为运维工作起到有效的支撑作用。
-
公开(公告)号:CN107656741B
公开(公告)日:2020-07-28
申请号:CN201610592012.7
申请日:2016-07-25
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明涉及一种在高性能计算环境中使用应用封装的方法及其装置,该方法包括:生成一个应用封装可执行文件;获取一个或多个高性能计算机的应用封装的基本信息;根据用户的作业描述请求,获取作业描述信息;在所述应用封装基本信息中匹配所述作业描述信息,得到所述作业描述信息对应的应用封装可执行文件;若匹配成功,对所述作业描述信息进行解析,并根据所述解析的结果,匹配的应用封装可执行文件和作业管理系统类型,生成作业提交脚本;向一个或多个所述高性能计算机发送所述作业提交脚本,完成作业提交。本申请能够屏蔽高性能计算环境上应用软件部署的异构性,为用户提供统一的使用环境。
-
公开(公告)号:CN111444020A
公开(公告)日:2020-07-24
申请号:CN202010247080.6
申请日:2020-03-31
Applicant: 中国科学院计算机网络信息中心
Abstract: 本发明涉及一种超融合计算系统架构及融合服务平台。该架构将超级计算系统、大数据云系统、数据存储系统以及高速网络系统融合于单一计算系统中。其中,超级计算系统利用并行化计算方法满足对计算精度、计算规模具有较高要求的科研数据处理需求;大数据云系统借助虚拟化技术满足分布式计算环境、个性化科研计算环境的快速定制、发布需求;数据存储系统用于储存文件形态、对象形态的海量科研数据,满足数据处理过程中的临时数据交换和存储需求,满足数据处理后共享发布的存储需求。高速网络系统负责超级计算系统、大数据云系统、数据存储系统间的互连互通,满足海量科研数据在上述各系统之间的快速交换需求,为实现“流水线”式数据处理提供底层物理支撑。
-
-
-
-
-
-
-
-
-