一种基于模型的近端策略优化方法

    公开(公告)号:CN113947022B

    公开(公告)日:2022-07-12

    申请号:CN202111220714.X

    申请日:2021-10-20

    Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。

    一种基于模型的近端策略优化方法

    公开(公告)号:CN113947022A

    公开(公告)日:2022-01-18

    申请号:CN202111220714.X

    申请日:2021-10-20

    Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。

Patent Agency Ranking