基于智算网络的协同训练方法、装置、终端及存储介质

    公开(公告)号:CN115297008A

    公开(公告)日:2022-11-04

    申请号:CN202210793410.0

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于智算网络的协同训练方法、装置、终端及存储介质,方法包括:获取若干个待训练算法及对应的数据集,并根据获取的若干个算法及数据集生成多个任务组;根据选择的任务组确定分布式智能协同计算平台中的待训练终端,并确定各待训练终端对应的待训练算法及数据集;通过跨异构智算中心的协同训练策略对所有待训练终端的模型进行协同训练及推理,得到协同训练及推理结果;根据所述协同训练及推理结果获取多模型融合策略,并通过所述多模型融合策略对训练后终端中的算法进行融合,得到基于分布式多框架的跨异构智算中心的协同计算模型。本发明可以实现单集群难以实现的大模型协同训练、多模型融合、大模型压缩等技术。

    支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785B

    公开(公告)日:2024-12-17

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

    基于多面体模型建模的自动并行策略搜索方法及相关设备

    公开(公告)号:CN115964947A

    公开(公告)日:2023-04-14

    申请号:CN202211704600.7

    申请日:2022-12-29

    Abstract: 本发明公开了基于多面体模型建模的自动并行策略搜索方法及相关设备,所述方法包括:根据每两个客户端的智算网络的智算中心资源,以最优的并行策略作为约束条件,分别对该两个客户端上的编解码架构模型进行分配;控制该两个客户端利用所有经过分配后的编解码架构模型,对所述智算中心资源进行协同训练和聚合操作,计算得到多面体模型的梯度值。通过先根据每两个客户端的智算网络的智算中心资源,对各自的编解码架构模型进行不同的分配,再利用经过分配后的编解码架构模型对所述智算中心资源进行协同训练和聚合操作,以便计算得到梯度值,从而实现根据不同算力分布、数据分布、以及不同业务场景进行分配,使得满足多种业务场景,实现大模型训练在智算网络中的规模化扩展。

    多语言翻译模型的生成方法、翻译方法、终端及介质

    公开(公告)号:CN115796192A

    公开(公告)日:2023-03-14

    申请号:CN202211011066.1

    申请日:2022-08-23

    Abstract: 本发明实施例提供了一种多语言翻译模型的生成方法、翻译方法、终端及存储介质,通过获取多个第一单语语句,对预设自回归语言模型进行训练,生成预训练语言模型;所述预设自回归语言模型由解码器组成;获取多个双语语句对,并将所述双语语句对中互译的两个语句拼接,生成双语训练样本;基于所述双语训练样本对所述预训练语言模型进行训练,生成多语言翻译模型;所述多语言翻译模型用于将给定的源语言翻译出目标语句。通过上述方案,利用稀缺语言资源生成高翻译质量的多语言翻译模型,实现高质量的多语言翻译。

    支持高并发的大规模生成式语言模型快速推理方法及系统

    公开(公告)号:CN114385785A

    公开(公告)日:2022-04-22

    申请号:CN202111594472.0

    申请日:2021-12-23

    Abstract: 本发明公开了一种支持高并发的大规模生成式语言模型快速推理方法及系统,方法包括:获取第i步的前序文本的注意力中间值和第i步的预测文本,并保存第i步的前序文本的注意力中间值;获取第i步的预测文本对应的注意力中间值,根据第i步的预测文本对应的注意力中间值与第i步的前序文本对应的注意力中间值获取第i+1步的前序文本对应的注意力输出结果;根据第i+1步的前序文本对应的注意力输出结果生成第i+1步的预测文本。本发明能够加速大规模生成式语言模型的推理速度,缩短用户等待模型输出的时间。

    基于智算网络的协同训练方法、装置、终端及存储介质

    公开(公告)号:CN115297008B

    公开(公告)日:2023-08-22

    申请号:CN202210793410.0

    申请日:2022-07-07

    Abstract: 本发明公开了一种基于智算网络的协同训练方法、装置、终端及存储介质,方法包括:获取若干个待训练算法及对应的数据集,并根据获取的若干个算法及数据集生成多个任务组;根据选择的任务组确定分布式智能协同计算平台中的待训练终端,并确定各待训练终端对应的待训练算法及数据集;通过跨异构智算中心的协同训练策略对所有待训练终端的模型进行协同训练及推理,得到协同训练及推理结果;根据所述协同训练及推理结果获取多模型融合策略,并通过所述多模型融合策略对训练后终端中的算法进行融合,得到基于分布式多框架的跨异构智算中心的协同计算模型。本发明可以实现单集群难以实现的大模型协同训练、多模型融合、大模型压缩等技术。

    一种跨域数据异构的大模型在线剪枝方法及相关设备

    公开(公告)号:CN115423088A

    公开(公告)日:2022-12-02

    申请号:CN202210986537.4

    申请日:2022-08-17

    Abstract: 本发明公开了一种跨域数据异构的大模型在线剪枝方法及相关设备,方法包括:获取目标预训练模型和目标数据集;根据目标数据集对目标预训练模型进行预剪枝,得到预剪枝模型;将预剪枝模型的参数发送至云服务器进行处理,得到目标融合参数,将目标融合参数加载至预剪枝模型,得到目标融合模型,将目标预训练模型更新为目标融合模型;重新执行根据目标数据集对目标预训练模型进行预剪枝的步骤,直至完成预设数量的轮数后,将目标融合模型作为目标预剪枝模型;对目标预剪枝模型进行结构剪枝处理,得到目标剪枝模型;根据目标剪枝模型得到目标发布模型。本发明能够在跨域网络环境下,对模型进行在线剪枝,减少模型参数,降低大模型部署对硬件的要求。

    一种跨域协同训练任务计算效率仿真方法及相关设备

    公开(公告)号:CN115391156A

    公开(公告)日:2022-11-25

    申请号:CN202210983212.0

    申请日:2022-08-16

    Abstract: 本发明公开了一种跨域协同训练任务计算效率仿真方法及相关设备,所述计算效率仿真方法包括:输入跨域协同训练模型及相关参数;根据所述跨域协同训练模型及所述相关参数初始化跨域协同训练中五种类型计算阶段的仿真模型;根据所述相关参数中的跨域协同训练轮数,计算每个协同训练周期内不同阶段计算任务的时间点;根据所有协同训练周期内的时间点统计出跨域协同训练任务的计算效率指标。通过建立跨域协同训练中五种类型计算阶段的仿真模型后,计算所有协同训练周期内所有协同训练周期内的时间点,再统计出跨域协同训练任务的计算效率指标,从而实现了快捷计算跨域协同训练任务的仿真效率,提高了计算效率仿真的准确性。

    基于多面体模型建模的自动并行策略搜索方法及相关设备

    公开(公告)号:CN114925591A

    公开(公告)日:2022-08-19

    申请号:CN202111646797.9

    申请日:2021-12-29

    Abstract: 本发明公开了基于多面体模型建模的自动并行策略搜索方法及相关设备,所述方法包括:根据用户输入的模型对象得到深度学习算法的模型计算图;对模型计算图进行转换,得到转换后的模型计算图;将转换后的模型计算图进行均衡处理,得到均衡计算图;根据所述均衡计算图,创建多面体模型实例,并根据多面体模型实例输出并行策略;调用底层框架执行并行策略。本发明中通过将模型计算图进行转换及均衡处理,并在多面体模型的框架下创建多面体模型实例后,自动输出并行策略,实现了在多面体模型下将不同的算法逻辑进行建模,并自动输出并行策略过程,提升了并行策略搜索的效率,降低了深度学习算法的分布式训练开发和效率调优难度。

Patent Agency Ranking