-
公开(公告)号:CN119597471A
公开(公告)日:2025-03-11
申请号:CN202411657605.8
申请日:2024-11-19
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
Abstract: 本申请涉及一种基于细粒度调度的模型训练方法、装置、设备和存储介质,通过获取第一样本序列;将第一样本序列输入至模型进行训练,并在训练过程中为各第一样本序列分配显存空间,以及对各第一样本序列基于单独线程进行运算;在有任一第一样本序列完成反向传播的情况下,释放该第一样本序列占用的显存空间,并将新的第二样本序列输入至模型进行训练;解决了大语言模型在训练过程中存在运算资源浪费的问题。