基于强化学习训练语言模型的方法及装置

    公开(公告)号:CN119558428A

    公开(公告)日:2025-03-04

    申请号:CN202411614311.7

    申请日:2024-11-12

    Abstract: 本说明书实施例涉及基于强化学习训练语言模型的方法及装置,方法包括多轮更新,其中任意一轮更新包括:首先,将目标输入文本输入到目标语言模型中,得到目标输出序列。然后,根据所述目标输入文本和目标输出序列,使用预训练的多个奖励模型确定当前轮次的多个奖励分数。接下来,根据所述多个奖励分数以及所述多个奖励模型在上一轮次中各自的先前权重值,确定多个奖励模型在当前轮次中各自的当前权重值。然后,根据所述当前权重值对所述多个奖励分数进行加权求和,根据加权求和结果,确定总奖励分数。最后,根据所述总奖励分数,更新所述目标语言模型的参数值。

Patent Agency Ranking