-
公开(公告)号:CN108632086B
公开(公告)日:2020-12-11
申请号:CN201810356611.8
申请日:2018-04-19
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种并行作业运行故障定位方法。该方法针对并行作业运行过程中出现的故障,首先列举了导致故障发生的所有原因,并对其进行分类、分级;然后,通过问题规模及其关联关系,建立故障定位分析方法,由上而下、逐层排查故障原因,缩小了故障的处理范围,有效解决了高性能计算系统中故障定位难度高且准确性差的问题。
-
公开(公告)号:CN108632086A
公开(公告)日:2018-10-09
申请号:CN201810356611.8
申请日:2018-04-19
Applicant: 山东省计算中心(国家超级计算济南中心)
Abstract: 本发明涉及一种并行作业运行故障定位方法。该方法针对并行作业运行过程中出现的故障,首先列举了导致故障发生的所有原因,并对其进行分类、分级;然后,通过问题规模及其关联关系,建立故障定位分析方法,由上而下、逐层排查故障原因,缩小了故障的处理范围,有效解决了高性能计算系统中故障定位难度高且准确性差的问题。
-