一种语言模型训练方法及相关装置

    公开(公告)号:CN118195033B

    公开(公告)日:2024-08-23

    申请号:CN202410623693.3

    申请日:2024-05-20

    Abstract: 本申请公开了一种语言模型训练方法及相关装置,涉及模型训练技术领域,训练方法包括:将语言模型部署于多个计算设备上,每个计算设备上部署语言模型的一个或多个层;获取训练样本集,训练样本集包括从训练序列集中获取的A个长度为S的训练序列;对训练样本集进行划分,得到多个训练样本子集,每个训练样本子集包括B个长度为S的训练序列,B小于A;对多个训练样本子集分别在序列维度进行切分,得到多个训练样本子集分别对应的子序列块集;利用多个训练样本子集分别对应的子序列块集中的各子序列块,采用流水并行的训练方式,控制多个计算设备进行模型训练。本申请公开的语言模型训练方法具有较低的内存需求和较低的流水空泡率。

    模型训练方法、装置、设备及存储介质

    公开(公告)号:CN116628509A

    公开(公告)日:2023-08-22

    申请号:CN202310900540.4

    申请日:2023-07-21

    Abstract: 本申请公开了一种模型训练方法、装置、设备及存储介质,方法包括:当确定需要添加新增训练数据时,基于预先构建的batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,避免重复读取已使用的batch迭代训练模型,其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch,将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练,可以最大程度地保持训练数据的分布一致性,提升模型的泛化能力。

    模型调度处理方法、装置、设备及存储介质

    公开(公告)号:CN113935472A

    公开(公告)日:2022-01-14

    申请号:CN202111299696.9

    申请日:2021-11-04

    Abstract: 本申请提出一种模型调度处理方法、装置、设备及存储介质,该方法包括:根据各个网络模型执行单路串行任务时的运行日志数据,以及执行多路并行任务时的运行日志数据,确定各个网络模型的性能参数;根据各个网络模型的性能参数,以及各个网络模型执行目标任务时的运行日志数据,确定对各个网络模型的调度策略。上述方案通过分析网络模型的性能参数,以及各个网络模型在执行目标任务时的运行日志数据,确定对各个网络模型的调度策略,实现了对模型调度的分析及调整,有利于提高多网络模型协同工作应用的性能。

    任务调度方法、调度模块、推理节点和协同作业系统

    公开(公告)号:CN113608852A

    公开(公告)日:2021-11-05

    申请号:CN202110888396.8

    申请日:2021-08-03

    Abstract: 本发明提供一种任务调度方法、调度模块、推理节点和协同作业系统,其中方法应用于调度模块,该方法包括:获取各推理节点的待处理信息,各推理节点协同作业,待处理信息包括对应推理节点下的待处理任务数量和/或各待处理任务的任务类型;基于各推理节点的待处理信息,以及各推理节点在协同作业中的重要性,从各推理节点中选取目标节点,所有目标节点进行任务处理所需的计算资源总和小于等于额定计算量;向目标节点发送任务处理指令,以触发目标节点进行任务处理,满足了对整体吞吐量和任务响应时间的要求,解决了单一神经网络的调度推理方案无法对多个神经网络协同工作的任务进行调度推理的问题,实现了复杂场景下的调度推理。

    任务调度方法、调度模块、推理节点和协同作业系统

    公开(公告)号:CN113608852B

    公开(公告)日:2024-07-16

    申请号:CN202110888396.8

    申请日:2021-08-03

    Abstract: 本发明提供一种任务调度方法、调度模块、推理节点和协同作业系统,其中方法应用于调度模块,该方法包括:获取各推理节点的待处理信息,各推理节点协同作业,待处理信息包括对应推理节点下的待处理任务数量和/或各待处理任务的任务类型;基于各推理节点的待处理信息,以及各推理节点在协同作业中的重要性,从各推理节点中选取目标节点,所有目标节点进行任务处理所需的计算资源总和小于等于额定计算量;向目标节点发送任务处理指令,以触发目标节点进行任务处理,满足了对整体吞吐量和任务响应时间的要求,解决了单一神经网络的调度推理方案无法对多个神经网络协同工作的任务进行调度推理的问题,实现了复杂场景下的调度推理。

    模型训练方法、装置、设备及存储介质

    公开(公告)号:CN116628509B

    公开(公告)日:2023-12-01

    申请号:CN202310900540.4

    申请日:2023-07-21

    Abstract: 本申请公开了一种模型训练方法、装置、设备及存储介质,方法包括:当确定需要添加新增训练数据时,基于预先构建的batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,避免重复读取已使用的batch迭代训练模型,其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch,将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练,可以最大程度地保持训练数据的分布一致性,提升模型的泛化能力。

    模型训练过程异常检测方法、装置、设备及存储介质

    公开(公告)号:CN116628508A

    公开(公告)日:2023-08-22

    申请号:CN202310893103.4

    申请日:2023-07-20

    Abstract: 本申请公开了一种模型训练过程异常检测方法、装置、设备及存储介质,方法包括:在模型并行训练过程中,按照设定周期记录训练效率数据,该训练效率数据表示在一个周期内集群中各设备节点对训练数据的使用效率。当集群中存在异常的设备节点时,该异常设备节点对训练数据的读取、使用效率会大大降低,导致整个周期内记录的训练效率数据也偏离正常值,因此,本申请基于当前周期的训练效率数据,确定集群在当前周期是否出现异常,可以及时准确地发现集群的异常。在确定集群在当前周期出现异常时,可以进一步启动进程进行通信异常分析,从而确定异常通信的设备节点,协助快速发现问题节点。

    模型的分布式训练方法、装置、设备、系统及计算机程序产品

    公开(公告)号:CN119443305A

    公开(公告)日:2025-02-14

    申请号:CN202411362192.0

    申请日:2024-09-27

    Abstract: 本申请提出一种模型的分布式训练方法、装置、设备、系统及计算机程序产品,该方法包括:在重新提交目标模型的训练任务的情况下,读取训练集群的历史组网建链文件;其中,所述历史组网建链文件为所述训练集群基于历史提交的所述训练任务生成的、用于记录各卡之间通信关系的文件;在所述目标模型基于所述训练任务进行分布式训练的过程中,按照所述历史组网建链文件控制各卡进行通信。在目标模型基于训练任务进行分布式训练的过程中,可以直接按照历史组网建链文件控制各卡进行通信,从而快速开展模型训练,缩短了分布式训练的耗时。

    一种语言模型训练方法及相关装置

    公开(公告)号:CN118195033A

    公开(公告)日:2024-06-14

    申请号:CN202410623693.3

    申请日:2024-05-20

    Abstract: 本申请公开了一种语言模型训练方法及相关装置,涉及模型训练技术领域,训练方法包括:将语言模型部署于多个计算设备上,每个计算设备上部署语言模型的一个或多个层;获取训练样本集,训练样本集包括从训练序列集中获取的A个长度为S的训练序列;对训练样本集进行划分,得到多个训练样本子集,每个训练样本子集包括B个长度为S的训练序列,B小于A;对多个训练样本子集分别在序列维度进行切分,得到多个训练样本子集分别对应的子序列块集;利用多个训练样本子集分别对应的子序列块集中的各子序列块,采用流水并行的训练方式,控制多个计算设备进行模型训练。本申请公开的语言模型训练方法具有较低的内存需求和较低的流水空泡率。

Patent Agency Ranking