一种视觉大模型分布式训练方法及系统

    公开(公告)号:CN113723443A

    公开(公告)日:2021-11-30

    申请号:CN202110784131.3

    申请日:2021-07-12

    Abstract: 本发明公开了一种视觉大模型分布式训练方法及系统,所述方法包括:构建分布式训练系统,包括主控服务器、多个GPU服务器、分布式存储服务器和存储网络交换机;根据视觉大模型训练所用数据集的大小,确定数据加载方式;根据所述视觉大模型的结构特点,对所述视觉大模型中不同类型的网络层组的参数量和计算量进行评估,结合GPU的算力和缓存能力对所述视觉大模型进行分解,确定所述视觉大模型的并行训练方案;采用混合并行模式进行模型训练,基于所述主控服务器进行模型聚合、全局模型更新和模型分发,在训练过程中每隔若干周期利用训练集和验证集对所述视觉大模型进行测评,当所述视觉大模型收敛后停止训练;本发明实现了视觉大模型的高效训练。

    大规模多机多卡预训练方法、系统、设备及服务器集群

    公开(公告)号:CN113723552A

    公开(公告)日:2021-11-30

    申请号:CN202111042840.0

    申请日:2021-09-07

    Abstract: 本发明属于分布式训练技术领域,公开了一种大规模多机多卡预训练方法、系统、设备及服务器集群,在多个服务器上部署多机多卡,进行同构机型和异构混合机型的多机多卡并行;基于slurm框架进行大规模多机多卡训练及评测,以无监督特征学习BYOL算法为例予以实施;基于Horovod框架进行大规模多机多卡训练及评测,以视频语义无监督学习PRP算法予以实施;所述训练包括环境配置、任务配置、通信配置、任务加速。本发明涉及的多机多卡大规模训练实验,batchsize之高,训练时间压缩之短,验证鹏城云脑I大科学装置的并行能力,拓展并行训练的集群规模,对于利用超大规模集群开展分布式训练具有指导意义。

    一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法

    公开(公告)号:CN110175628A

    公开(公告)日:2019-08-27

    申请号:CN201910338123.9

    申请日:2019-04-25

    Abstract: 本发明涉及神经网络领域,特别涉及一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法。具体包括以下步骤:步骤一、对于卷积神经网络,对神经网络l层搜索最佳剪枝比例pl;步骤二、对卷积神经网络的l层按照最佳剪枝比例进行剪枝操作;步骤三、对学生网络与教师网络输入训练集样本,前向传播;步骤四、对学生网络使用知识蒸馏算法,进行优化训练;步骤五、对学生网络进行反向传播更新参数,并且优化更新参数,然后跳转至步骤四。本发明实现卷积神经网络的剪枝与精度恢复,克服卷积神经网络压缩依赖原始数据集的问题。

    分布式训练方法、装置、智能终端及计算机可读存储介质

    公开(公告)号:CN114035938B

    公开(公告)日:2025-02-07

    申请号:CN202111209507.4

    申请日:2021-10-18

    Abstract: 本发明公开了分布式训练方法、装置、智能终端及计算机可读存储介质,方法包括:分别获取各服务器的服务器智能水平,各上述服务器智能水平分别体现对应服务器的数据处理能力;基于待训练数据集的复杂度、待训练模型的复杂度以及各服务器智能水平获取目标分组数目信息,并基于目标分组数目信息和各上述服务器的服务器智能水平对所有服务器进行群组划分,获取多个服务器群组;基于各服务器群组的群组智能水平分别为各服务器群组分发待训练数据集中的数据资源和待训练模型中的模型资源,各群组智能水平分别体现对应服务器群组的数据处理能力;分别控制各服务器群组基于获得的数据资源和模型资源进行训练。与现有技术中相比,本发明可提高训练效率。

    大规模多机多卡预训练方法、系统、设备及服务器集群

    公开(公告)号:CN113723552B

    公开(公告)日:2024-11-08

    申请号:CN202111042840.0

    申请日:2021-09-07

    Abstract: 本发明属于分布式训练技术领域,公开了一种大规模多机多卡预训练方法、系统、设备及服务器集群,在多个服务器上部署多机多卡,进行同构机型和异构混合机型的多机多卡并行;基于slurm框架进行大规模多机多卡训练及评测,以无监督特征学习BYOL算法为例予以实施;基于Horovod框架进行大规模多机多卡训练及评测,以视频语义无监督学习PRP算法予以实施;所述训练包括环境配置、任务配置、通信配置、任务加速。本发明涉及的多机多卡大规模训练实验,batchsize之高,训练时间压缩之短,验证鹏城云脑I大科学装置的并行能力,拓展并行训练的集群规模,对于利用超大规模集群开展分布式训练具有指导意义。

    分布式训练方法、装置、智能终端及计算机可读存储介质

    公开(公告)号:CN114035938A

    公开(公告)日:2022-02-11

    申请号:CN202111209507.4

    申请日:2021-10-18

    Abstract: 本发明公开了分布式训练方法、装置、智能终端及计算机可读存储介质,方法包括:分别获取各服务器的服务器智能水平,各上述服务器智能水平分别体现对应服务器的数据处理能力;基于待训练数据集的复杂度、待训练模型的复杂度以及各服务器智能水平获取目标分组数目信息,并基于目标分组数目信息和各上述服务器的服务器智能水平对所有服务器进行群组划分,获取多个服务器群组;基于各服务器群组的群组智能水平分别为各服务器群组分发待训练数据集中的数据资源和待训练模型中的模型资源,各群组智能水平分别体现对应服务器群组的数据处理能力;分别控制各服务器群组基于获得的数据资源和模型资源进行训练。与现有技术中相比,本发明可提高训练效率。

Patent Agency Ranking