-
公开(公告)号:CN118245896A
公开(公告)日:2024-06-25
申请号:CN202410382371.4
申请日:2024-03-29
Applicant: 清华大学
IPC: G06F18/2411 , G06F18/214 , G06F9/50
Abstract: 本公开涉及一种预训练大语言模型的微调方法和装置,确定大语言模型训练过程中的至少一个具有对应算子的迭代处理过程,在每个迭代过程开始时接收其他加速器内存储的每个对应算子的参数并完成第一次迭代处理,生成/消耗每个算子对应的激活向量。然后再确定第一次迭代处理对应的内存信息以调整大语言模型对应加速器上包括激活向量空间和激活向量空间以外的参数空间的内存空间。将每个算子对应的激活向量存储在激活向量空间,对应得到参数存储至参数空间,并基于参数空间中的参数完成后续的迭代处理过程。本公开在大语言模型的训练过程中自动调节加速器的内存用量并自动缓存需要用到的参数,以通过参数复用减少通信开销,提高整体的吞吐量。
-
公开(公告)号:CN112767230A
公开(公告)日:2021-05-07
申请号:CN202110222831.3
申请日:2021-02-26
Applicant: 清华大学
Abstract: 提供GPU图神经网络优化方法和计算机可读介质,优化方法包括:对于GPU图神经网络模型定义,生成包括张量和操作的计算图;针对所述计算图,得到多个等价计算图;比较各个计算图的计算量,选取计算量最小的计算图;对于选取的计算图,生成对应GPU代码。可以对于选取的计算图,分析得到其每个操作所需输入的数据可视范围,以及输出的数据可视范围;解决有依赖关系的操作的数据可视范围不匹配的问题;将数据可视已匹配的操作合并为同一个GPU核函数。本发明的图神经网络优化方法可以减少图神经网络中的算子之间的数据可视范围不匹配,从而合并算子以减少内存访问;同时可以找到等价的无冗余计算的计算图,减少冗余的计算。
-