训练序列生成模型的方法及装置
    1.
    发明公开

    公开(公告)号:CN115168402A

    公开(公告)日:2022-10-11

    申请号:CN202210800826.0

    申请日:2022-07-08

    Abstract: 本说明书实施例提供一种训练序列生成模型的方法和装置。根据该方法,首先获取原始训练样本,其中包括:通过自然语言对目标数据表进行查询的第一语句,目标数据表的元数据,以及作为数据查询语言的第二语句。然后根据预设的概率,对训练样本施加预定的若干种加噪操作,其中任意一种加噪操作至少包括,对第一语句和第二语句之一进行修改,由此生成加噪样本,其中包括源语句,目标元数据和目标语句。于是,基于源语句和目标元数据形成输入序列,利用序列生成模型处理输入序列,得到输出序列;并根据输出序列和目标语句,更新上述序列生成模型。

    训练大语言模型的方法及装置
    2.
    发明公开

    公开(公告)号:CN120046685A

    公开(公告)日:2025-05-27

    申请号:CN202510213820.7

    申请日:2025-02-25

    Abstract: 本说明书实施例涉及训练大语言模型的方法及装置,方法包括:首先,通过将目标批次的训练样本输入所述大语言模型,确定目标训练轮次的过程数据,所述训练样本包括文本数据,所述过程数据包括训练损失值或各个参数的梯度值;然后,获取对目标训练轮次之前的连续N个训练轮次的过程数据进行统计得到的基准值;接下来,当所述目标训练轮次的过程数据与所述基准值之间的目标差异超过预设的第一阈值时,将所述目标训练轮次确定为异常训练轮次;最后,对所述异常训练轮次进行目标处理;所述目标处理包括跳过所述异常训练轮次,或者调整所述异常训练轮次中的超参数,以降低该异常训练轮次的影响。

    训练大语言模型的方法及装置
    3.
    发明公开

    公开(公告)号:CN120068972A

    公开(公告)日:2025-05-30

    申请号:CN202510225377.5

    申请日:2025-02-26

    Abstract: 本说明书实施例提供一种训练大语言模型的方法,该方法包括:获取输出层的目标参数矩阵,其通过对输出层在上一批次训练得到的原始参数矩阵进行归一化处理而得到。通过目标参数矩阵,对输出层的输入向量进行映射处理,得到映射到预设的词表空间的输出结果,该输入向量与输入文本相对应。在得到当前批次包含的各个微批次中各个输入文本对应的输出结果后,确定目标参数梯度,利用目标参数梯度更新原始参数矩阵。

    混合专家模型的数据路由方法及装置

    公开(公告)号:CN119990374A

    公开(公告)日:2025-05-13

    申请号:CN202510072358.3

    申请日:2025-01-16

    Abstract: 本说明书一个或多个实施例提供了一种混合专家模型的数据路由方法及装置,其获取混合专家模型对于待路由数据的原始路由矩阵;该原始路由矩阵中各个元素为混合专家模型中各个专家子模型对于待路由数据的原始路由参数;在当前训练步数不大于预设步数的情况下,也即在模型训练初期,不再直接根据原始路由矩阵对待路由数据进行路由,而是先根据原始路由矩阵确定对应的随机路由矩阵;该随机路由矩阵中各个元素为与各个所述原始路由参数对应的随机路由参数;然后根据该随机路由矩阵对待路由数据进行路由,以确定将待路由数据输入哪一个或几个专家子模型。

Patent Agency Ranking