-
公开(公告)号:CN118245262A
公开(公告)日:2024-06-25
申请号:CN202410334810.4
申请日:2024-03-22
Applicant: 上海交通大学
IPC: G06F11/07
Abstract: 本发明提供一种GPU错误恢复方法及系统,包括:步骤S1:在程序编译阶段,为每个生成的GPU核函数生成包装代码;步骤S2:在运行阶段,用户调用GPU核函数,如果GPU核函数正常执行,则将返回值正常返回,否则进入步骤S3;步骤S3:当检测到发生错误后,通过错误分类器查询错误的可恢复性,如果错误可恢复,则进入步骤S4,否则进入步骤S6;步骤S4:通过幂等性验证器查询当前GPU核函数的幂等性,根据幂等性决定是否重新执行GPU核函数;步骤S5:如果GPU核函数具有幂等性,则重新执行该GPU核函数,否则进入步骤S6;步骤S6:将截获的错误重新返回。本发明能够提高系统的容错能力,降低系统的错误恢复延迟。