GPU错误恢复方法及系统
    1.
    发明公开

    公开(公告)号:CN118245262A

    公开(公告)日:2024-06-25

    申请号:CN202410334810.4

    申请日:2024-03-22

    Abstract: 本发明提供一种GPU错误恢复方法及系统,包括:步骤S1:在程序编译阶段,为每个生成的GPU核函数生成包装代码;步骤S2:在运行阶段,用户调用GPU核函数,如果GPU核函数正常执行,则将返回值正常返回,否则进入步骤S3;步骤S3:当检测到发生错误后,通过错误分类器查询错误的可恢复性,如果错误可恢复,则进入步骤S4,否则进入步骤S6;步骤S4:通过幂等性验证器查询当前GPU核函数的幂等性,根据幂等性决定是否重新执行GPU核函数;步骤S5:如果GPU核函数具有幂等性,则重新执行该GPU核函数,否则进入步骤S6;步骤S6:将截获的错误重新返回。本发明能够提高系统的容错能力,降低系统的错误恢复延迟。

Patent Agency Ranking