一种人工反馈强化学习优化文本生成图像模型的方法及系统

    公开(公告)号:CN116955972A

    公开(公告)日:2023-10-27

    申请号:CN202310938023.6

    申请日:2023-07-28

    Abstract: 一种人工反馈强化学习优化文本生成图像模型的方法及系统,其方法包括:1)准备一个用于文本生成图片的text2image初始模型和用于对文本图片对进行打分的reward初始模型;2)用步骤1)的生成模型生成文本对应的图像并进行人工标注,包括在线标注和离线标注两种方式;3)基于步骤2)得到的人工标注的文本‑图像数据集,以reward初始模型为预训练模型训练一个能对文本图片匹配度打分的reward模型;4)基于步骤3)训练好的reward模型,并准备好训练用的输入文本数据集,采用人工反馈强化学习方法对text2image初始模型进行微调。本发明通过人工对原模型生成的数据进行标注,再利用标注好的数据微调原模型,来纠正以上问题,使得模型的生成结果更符合语义信息。

Patent Agency Ranking