-
公开(公告)号:CN113947022B
公开(公告)日:2022-07-12
申请号:CN202111220714.X
申请日:2021-10-20
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F30/27 , G06V20/40 , G06K9/62 , G06V10/774 , G06V10/764 , G06N20/00
Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。
-
公开(公告)号:CN113947022A
公开(公告)日:2022-01-18
申请号:CN202111220714.X
申请日:2021-10-20
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F30/27 , G06V20/40 , G06K9/62 , G06V10/774 , G06V10/764 , G06N20/00
Abstract: 本发明公开了一种基于模型的近端策略优化方法,包括步骤:获取模拟环境,并确定所述模拟环境对应的环境模型和策略网络;基于所述策略网络与所述模拟环境,确定状态数据;其中,所述状态数据包括所述模拟环境的视频序列帧;基于所述模拟环境的视频序列帧训练所述环境模型,得到已训练的环境模型输出的预测图像;基于所述预测图像,更新所述状态数据,得到更新的状态数据;基于所述更新的状态数据,更新所述策略网络,得到更新的策略网络。融合基于模型的深度强化学习算法,提出了基于模型的近端策略优化框架,较好的解决了非完全信息博弈环境下采样利用率低的问题,在提高采样率的同时提升训练速度。
-