-
公开(公告)号:CN118195033B
公开(公告)日:2024-08-23
申请号:CN202410623693.3
申请日:2024-05-20
申请人: 科大讯飞股份有限公司
IPC分类号: G06N20/00
摘要: 本申请公开了一种语言模型训练方法及相关装置,涉及模型训练技术领域,训练方法包括:将语言模型部署于多个计算设备上,每个计算设备上部署语言模型的一个或多个层;获取训练样本集,训练样本集包括从训练序列集中获取的A个长度为S的训练序列;对训练样本集进行划分,得到多个训练样本子集,每个训练样本子集包括B个长度为S的训练序列,B小于A;对多个训练样本子集分别在序列维度进行切分,得到多个训练样本子集分别对应的子序列块集;利用多个训练样本子集分别对应的子序列块集中的各子序列块,采用流水并行的训练方式,控制多个计算设备进行模型训练。本申请公开的语言模型训练方法具有较低的内存需求和较低的流水空泡率。
-
公开(公告)号:CN116628509A
公开(公告)日:2023-08-22
申请号:CN202310900540.4
申请日:2023-07-21
申请人: 科大讯飞股份有限公司
IPC分类号: G06F18/214
摘要: 本申请公开了一种模型训练方法、装置、设备及存储介质,方法包括:当确定需要添加新增训练数据时,基于预先构建的batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,避免重复读取已使用的batch迭代训练模型,其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch,将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练,可以最大程度地保持训练数据的分布一致性,提升模型的泛化能力。
-
公开(公告)号:CN113935472A
公开(公告)日:2022-01-14
申请号:CN202111299696.9
申请日:2021-11-04
申请人: 科大讯飞股份有限公司
摘要: 本申请提出一种模型调度处理方法、装置、设备及存储介质,该方法包括:根据各个网络模型执行单路串行任务时的运行日志数据,以及执行多路并行任务时的运行日志数据,确定各个网络模型的性能参数;根据各个网络模型的性能参数,以及各个网络模型执行目标任务时的运行日志数据,确定对各个网络模型的调度策略。上述方案通过分析网络模型的性能参数,以及各个网络模型在执行目标任务时的运行日志数据,确定对各个网络模型的调度策略,实现了对模型调度的分析及调整,有利于提高多网络模型协同工作应用的性能。
-
公开(公告)号:CN113608852A
公开(公告)日:2021-11-05
申请号:CN202110888396.8
申请日:2021-08-03
申请人: 科大讯飞股份有限公司
摘要: 本发明提供一种任务调度方法、调度模块、推理节点和协同作业系统,其中方法应用于调度模块,该方法包括:获取各推理节点的待处理信息,各推理节点协同作业,待处理信息包括对应推理节点下的待处理任务数量和/或各待处理任务的任务类型;基于各推理节点的待处理信息,以及各推理节点在协同作业中的重要性,从各推理节点中选取目标节点,所有目标节点进行任务处理所需的计算资源总和小于等于额定计算量;向目标节点发送任务处理指令,以触发目标节点进行任务处理,满足了对整体吞吐量和任务响应时间的要求,解决了单一神经网络的调度推理方案无法对多个神经网络协同工作的任务进行调度推理的问题,实现了复杂场景下的调度推理。
-
公开(公告)号:CN113608852B
公开(公告)日:2024-07-16
申请号:CN202110888396.8
申请日:2021-08-03
申请人: 中国科学技术大学 , 科大讯飞股份有限公司
摘要: 本发明提供一种任务调度方法、调度模块、推理节点和协同作业系统,其中方法应用于调度模块,该方法包括:获取各推理节点的待处理信息,各推理节点协同作业,待处理信息包括对应推理节点下的待处理任务数量和/或各待处理任务的任务类型;基于各推理节点的待处理信息,以及各推理节点在协同作业中的重要性,从各推理节点中选取目标节点,所有目标节点进行任务处理所需的计算资源总和小于等于额定计算量;向目标节点发送任务处理指令,以触发目标节点进行任务处理,满足了对整体吞吐量和任务响应时间的要求,解决了单一神经网络的调度推理方案无法对多个神经网络协同工作的任务进行调度推理的问题,实现了复杂场景下的调度推理。
-
公开(公告)号:CN116628509B
公开(公告)日:2023-12-01
申请号:CN202310900540.4
申请日:2023-07-21
申请人: 科大讯飞股份有限公司
IPC分类号: G06F18/214
摘要: 本申请公开了一种模型训练方法、装置、设备及存储介质,方法包括:当确定需要添加新增训练数据时,基于预先构建的batch列表,过滤掉已经训练使用过的batch,得到剩余各batch,避免重复读取已使用的batch迭代训练模型,其中batch列表中按照训练时的读取顺序记录各batch的标识。对于新增训练数据构建成若干batch,将对新增训练数据所构建的各batch与剩余各batch进行随机顺序打乱,并将打乱后的各batch的标识顺序的记录在batch列表中,以便后续按照batch列表顺序读取各标识对应的batch数据,进行在线模型训练,可以最大程度地保持训练数据的分布一致性,提升模型的泛化能力。
-
公开(公告)号:CN116627659B
公开(公告)日:2023-12-01
申请号:CN202310899664.5
申请日:2023-07-21
申请人: 科大讯飞股份有限公司
摘要: 本申请公开了一种模型检查点文件保存方法、装置、设备及存储介质,本申请在确定需要保存检查点checkpoint文件时,为了避免单节点网卡或磁盘IO拥塞问题,引入了负载均衡机制,将模型分割后的各个部分的checkpoint文件保存任务分散到多个不同的设备节点上,控制不同的设备节点采用并行处理的方式执行本设备节点的checkpoint文件保存任务,这样可以充分利用各设备节点的资源,避免单节点网卡或磁盘IO拥塞,提高保存效率。
-
公开(公告)号:CN116628508A
公开(公告)日:2023-08-22
申请号:CN202310893103.4
申请日:2023-07-20
申请人: 科大讯飞股份有限公司
IPC分类号: G06F18/214
摘要: 本申请公开了一种模型训练过程异常检测方法、装置、设备及存储介质,方法包括:在模型并行训练过程中,按照设定周期记录训练效率数据,该训练效率数据表示在一个周期内集群中各设备节点对训练数据的使用效率。当集群中存在异常的设备节点时,该异常设备节点对训练数据的读取、使用效率会大大降低,导致整个周期内记录的训练效率数据也偏离正常值,因此,本申请基于当前周期的训练效率数据,确定集群在当前周期是否出现异常,可以及时准确地发现集群的异常。在确定集群在当前周期出现异常时,可以进一步启动进程进行通信异常分析,从而确定异常通信的设备节点,协助快速发现问题节点。
-
公开(公告)号:CN118195033A
公开(公告)日:2024-06-14
申请号:CN202410623693.3
申请日:2024-05-20
申请人: 科大讯飞股份有限公司
IPC分类号: G06N20/00
摘要: 本申请公开了一种语言模型训练方法及相关装置,涉及模型训练技术领域,训练方法包括:将语言模型部署于多个计算设备上,每个计算设备上部署语言模型的一个或多个层;获取训练样本集,训练样本集包括从训练序列集中获取的A个长度为S的训练序列;对训练样本集进行划分,得到多个训练样本子集,每个训练样本子集包括B个长度为S的训练序列,B小于A;对多个训练样本子集分别在序列维度进行切分,得到多个训练样本子集分别对应的子序列块集;利用多个训练样本子集分别对应的子序列块集中的各子序列块,采用流水并行的训练方式,控制多个计算设备进行模型训练。本申请公开的语言模型训练方法具有较低的内存需求和较低的流水空泡率。
-
公开(公告)号:CN117765935A
公开(公告)日:2024-03-26
申请号:CN202311687308.3
申请日:2023-12-06
申请人: 科大讯飞股份有限公司
IPC分类号: G10L15/06 , G06F18/214 , G06F18/241 , G06N3/04
摘要: 本发明提供一种语音批数据生成与混淆方法、语音模型训练方法及装置,其中语音批数据生成与混淆方法包括:获取各类别语音数据的样本索引序列;对各类别语音数据的样本索引序列进行混淆,并基于预设类别比例,从混淆后各类别样本索引序列中抽取样本索引,生成多个固定比例数据索引块;对多个固定比例数据索引块进行混淆,并基于混淆后固定比例数据索引块,生成索引批数据。本发明提供的方法及装置,可以保证混淆后任意以固定数据索引块大小为粒度的局部范围内批数据的各个类别样本数量比例稳定,从而增强训练模型的稳定性与泛化能力。
-
-
-
-
-
-
-
-
-