深度学习框架与AI加速卡片内分布式训练适配方法和装置

    公开(公告)号:CN113918351B

    公开(公告)日:2022-03-11

    申请号:CN202111487478.8

    申请日:2021-12-08

    Abstract: 本发明公开了一种深度学习框架与AI加速卡片内分布式训练适配方法和装置,包括如下步骤:S1:深度学习框架支持新增AI加速卡片内单卡配置,其子步骤如下:S11:深度学习框架支持新硬件;S12:深度学习框架支持新硬件的设备线程;S13:深度学习框架支持新硬件的内存操作;S14:深度学习框架支持新硬件的算子核函数;S2:深度学习框架支持新增AI加速卡片内多卡配置;S3:深度学习框架支持张量切分和多卡分布;S4:深度学习框架支持新增AI加速卡片内多卡集合通信,本发明打通了深度学习框架与新增AI加速卡,并将深度学习框架源码与芯片底层软件全面对接,最大限度释放芯片的硬件能力,为端侧AI提供最强劲的算力。

    深度学习框架与AI加速卡片内分布式训练适配方法和装置

    公开(公告)号:CN113918351A

    公开(公告)日:2022-01-11

    申请号:CN202111487478.8

    申请日:2021-12-08

    Abstract: 本发明公开了一种深度学习框架与AI加速卡片内分布式训练适配方法和装置,包括如下步骤:S1:深度学习框架支持新增AI加速卡片内单卡配置,其子步骤如下:S11:深度学习框架支持新硬件;S12:深度学习框架支持新硬件的设备线程;S13:深度学习框架支持新硬件的内存操作;S14:深度学习框架支持新硬件的算子核函数;S2:深度学习框架支持新增AI加速卡片内多卡配置;S3:深度学习框架支持张量切分和多卡分布;S4:深度学习框架支持新增AI加速卡片内多卡集合通信,本发明打通了深度学习框架与新增AI加速卡,并将深度学习框架源码与芯片底层软件全面对接,最大限度释放芯片的硬件能力,为端侧AI提供最强劲的算力。

Patent Agency Ranking