-
公开(公告)号:CN119536983A
公开(公告)日:2025-02-28
申请号:CN202411345113.5
申请日:2024-09-25
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F9/50 , G06F21/71 , G06F21/62 , G06N3/0499 , G06N3/084
Abstract: 本申请涉及一种异构系统的模型并行训练方法、装置和计算机设备,其中,该方法包括:在每个预设条件下,构建待训练模型与各计算设备之间的多种映射关系,并生成策略集合;预设条件包括训练数据的批次大小、待训练模型对应的流水线并行粒度和每个计算设备的预设显存预算;遍历各预设条件,通过动态规划算法对不同的映射关系和策略集合中的各候选策略进行处理,得到当前最优的模型并行训练策略下异构系统的执行成本;基于最小执行成本对应的模型并行训练策略,通过各计算设备执行模型训练。通过本申请,解决了采用固定处理器进行训练,无法利用异构系统中多个计算设备实现高效的并行训练的问题,实现高效的模型并行训练,提升计算设备的资源利用率。
-
公开(公告)号:CN119376934A
公开(公告)日:2025-01-28
申请号:CN202411417066.0
申请日:2024-10-11
Applicant: 浙江大学
IPC: G06F9/50
Abstract: 本发明公开了一种云工作的负载预测方法,包括:获取云工作的历史负载数据并进行预处理,单独标记出每个序列最后一个时间步的数据;使用预处理后的历史负载数据和每个序列最后一个时间步的数据分别训练基于TS2Vec模型的时间卷积编码器,分别得到变量独立预测器和变量依赖预测器,将这两个预测器的输出加权求和得到云工作的负载预测。本发明尽量减少对历史数据的依赖,从而降低训练成本,同时在长期内保持低预测误差,还利用了变量独立和变量依赖两种预测器,进一步提高了预测的准确性。
-