-
公开(公告)号:CN119203043B
公开(公告)日:2025-03-11
申请号:CN202411719444.0
申请日:2024-11-28
Applicant: 之江实验室
IPC: G06F18/25 , G06F18/24 , G06F18/214 , G06N5/04
Abstract: 本申请涉及一种模型训练方法、装置和计算机设备。所述方法包括:获取与目标任务相关的多模态训练样本;多模态训练样本,包括文本、语音和图像中的至少两种样本;目标任务,为视觉处理、语音处理或语言处理中的一种;基于获取到的多模态训练样本,与待训练大模型,构建与目标任务相关的攻防博弈模型;基于攻防博弈模型,剔除多模态训练样本中影响待训练大模型的模型训练收敛速度的目标样本,得到精简后的样本;利用精简后的样本,对待训练大模型进行训练,得到训练后的大模型。采用本方法能够解决了现有的大模型的训练方法,因为存在影响大模型训练效率的样本,导致在进行大模型训练的过程中,存在占用计算资源过多的问题。
-
公开(公告)号:CN119203043A
公开(公告)日:2024-12-27
申请号:CN202411719444.0
申请日:2024-11-28
Applicant: 之江实验室
IPC: G06F18/25 , G06F18/24 , G06F18/214 , G06N5/04
Abstract: 本申请涉及一种模型训练方法、装置和计算机设备。所述方法包括:获取与目标任务相关的多模态训练样本;多模态训练样本,包括文本、语音和图像中的至少两种样本;目标任务,为视觉处理、语音处理或语言处理中的一种;基于获取到的多模态训练样本,与待训练大模型,构建与目标任务相关的攻防博弈模型;基于攻防博弈模型,剔除多模态训练样本中影响待训练大模型的模型训练收敛速度的目标样本,得到精简后的样本;利用精简后的样本,对待训练大模型进行训练,得到训练后的大模型。采用本方法能够解决了现有的大模型的训练方法,因为存在影响大模型训练效率的样本,导致在进行大模型训练的过程中,存在占用计算资源过多的问题。
-