训练大语言模型的方法及装置
    2.
    发明公开

    公开(公告)号:CN120046685A

    公开(公告)日:2025-05-27

    申请号:CN202510213820.7

    申请日:2025-02-25

    Abstract: 本说明书实施例涉及训练大语言模型的方法及装置,方法包括:首先,通过将目标批次的训练样本输入所述大语言模型,确定目标训练轮次的过程数据,所述训练样本包括文本数据,所述过程数据包括训练损失值或各个参数的梯度值;然后,获取对目标训练轮次之前的连续N个训练轮次的过程数据进行统计得到的基准值;接下来,当所述目标训练轮次的过程数据与所述基准值之间的目标差异超过预设的第一阈值时,将所述目标训练轮次确定为异常训练轮次;最后,对所述异常训练轮次进行目标处理;所述目标处理包括跳过所述异常训练轮次,或者调整所述异常训练轮次中的超参数,以降低该异常训练轮次的影响。

    一种通过多图形处理器计算对比损失的方法和装置

    公开(公告)号:CN117556273B

    公开(公告)日:2024-04-05

    申请号:CN202410016072.9

    申请日:2024-01-05

    Abstract: 本说明书实施例提供了一种通过多图形处理器计算对比损失的方法和装置,该方法包括:通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征,其中,每个处理器组包括一至多个图形处理器,每个图形处理器分别处理目标批次样本包含的至少一个样本的特征;各个处理器组分别确定处理器组包含的图形处理器处理的特征之间的局部特征相似度,并将局部特征相似度保存到处理器组包括的图形处理器的对应显存中;分别根据各个处理器组包括的图形处理器的对应显存中保存的局部特征相似度,确定各个处理器组对应的分组对比损失;根据各个处理器组对应的分组对比损失,确定整体对比损失。

    一种通过多图形处理器计算对比损失的方法和装置

    公开(公告)号:CN117556273A

    公开(公告)日:2024-02-13

    申请号:CN202410016072.9

    申请日:2024-01-05

    Abstract: 本说明书实施例提供了一种通过多图形处理器计算对比损失的方法和装置,该方法包括:通过划分为M个处理器组的N个图形处理器处理目标批次样本的特征,其中,每个处理器组包括一至多个图形处理器,每个图形处理器分别处理目标批次样本包含的至少一个样本的特征;各个处理器组分别确定处理器组包含的图形处理器处理的特征之间的局部特征相似度,并将局部特征相似度保存到处理器组包括的图形处理器的对应显存中;分别根据各个处理器组包括的图形处理器的对应显存中保存的局部特征相似度,确定各个处理器组对应的分组对比损失;根据各个处理器组对应的分组对比损失,确定整体对比损失。

Patent Agency Ranking