Patent search ap:("支付宝(杭州)信息技术有限公司") AND inv:"张泰维" Page 1

1.

发明公开
基于强化学习训练语言模型的方法及装置审中-实审

公开(公告)号：CN119558428A

公开(公告)日：2025-03-04

申请号：CN202411614311.7

申请日：2024-11-12

Applicant: 支付宝(杭州)信息技术有限公司

Inventor： 李佳晖 , 张翰林 , 张凤达 , 张泰维 , 况琨 , 陈隆 , 周俊 , 薛思乔

IPC: G06N20/00 , G06F40/205

Abstract: 本说明书实施例涉及基于强化学习训练语言模型的方法及装置，方法包括多轮更新，其中任意一轮更新包括：首先，将目标输入文本输入到目标语言模型中，得到目标输出序列。然后，根据所述目标输入文本和目标输出序列，使用预训练的多个奖励模型确定当前轮次的多个奖励分数。接下来，根据所述多个奖励分数以及所述多个奖励模型在上一轮次中各自的先前权重值，确定多个奖励模型在当前轮次中各自的当前权重值。然后，根据所述当前权重值对所述多个奖励分数进行加权求和，根据加权求和结果，确定总奖励分数。最后，根据所述总奖励分数，更新所述目标语言模型的参数值。

Patent Agency Ranking