-
公开(公告)号:CN113918351B
公开(公告)日:2022-03-11
申请号:CN202111487478.8
申请日:2021-12-08
Applicant: 之江实验室
IPC: G06F9/50 , G06F16/901 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种深度学习框架与AI加速卡片内分布式训练适配方法和装置,包括如下步骤:S1:深度学习框架支持新增AI加速卡片内单卡配置,其子步骤如下:S11:深度学习框架支持新硬件;S12:深度学习框架支持新硬件的设备线程;S13:深度学习框架支持新硬件的内存操作;S14:深度学习框架支持新硬件的算子核函数;S2:深度学习框架支持新增AI加速卡片内多卡配置;S3:深度学习框架支持张量切分和多卡分布;S4:深度学习框架支持新增AI加速卡片内多卡集合通信,本发明打通了深度学习框架与新增AI加速卡,并将深度学习框架源码与芯片底层软件全面对接,最大限度释放芯片的硬件能力,为端侧AI提供最强劲的算力。
-
公开(公告)号:CN113918351A
公开(公告)日:2022-01-11
申请号:CN202111487478.8
申请日:2021-12-08
Applicant: 之江实验室
IPC: G06F9/50 , G06F16/901 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种深度学习框架与AI加速卡片内分布式训练适配方法和装置,包括如下步骤:S1:深度学习框架支持新增AI加速卡片内单卡配置,其子步骤如下:S11:深度学习框架支持新硬件;S12:深度学习框架支持新硬件的设备线程;S13:深度学习框架支持新硬件的内存操作;S14:深度学习框架支持新硬件的算子核函数;S2:深度学习框架支持新增AI加速卡片内多卡配置;S3:深度学习框架支持张量切分和多卡分布;S4:深度学习框架支持新增AI加速卡片内多卡集合通信,本发明打通了深度学习框架与新增AI加速卡,并将深度学习框架源码与芯片底层软件全面对接,最大限度释放芯片的硬件能力,为端侧AI提供最强劲的算力。
-