Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"董泽宇" Page 1

1.

发明授权
一种基于模型的近端策略优化方法有权

公开(公告)号：CN113947022B

公开(公告)日：2022-07-12

申请号：CN202111220714.X

申请日：2021-10-20

Applicant: 哈尔滨工业大学(深圳)

Inventor： 漆舒汉 , 董泽宇 , 王轩 , 张加佳 , 刘洋 , 唐琳琳 , 夏文 , 李君一 , 蒋琳 , 高翠芸

IPC: G06F30/27 , G06V20/40 , G06K9/62 , G06V10/774 , G06V10/764 , G06N20/00

Abstract: 本发明公开了一种基于模型的近端策略优化方法，包括步骤：获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络；基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧；基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像；基于所述预测图像，更新所述状态数据，得到更新的状态数据；基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络。融合基于模型的深度强化学习算法，提出了基于模型的近端策略优化框架，较好的解决了非完全信息博弈环境下采样利用率低的问题，在提高采样率的同时提升训练速度。

2.

发明公开
一种基于模型的近端策略优化方法有权

公开(公告)号：CN113947022A

公开(公告)日：2022-01-18

申请号：CN202111220714.X

申请日：2021-10-20

Applicant: 哈尔滨工业大学(深圳)

Inventor： 漆舒汉 , 董泽宇 , 王轩 , 张加佳 , 刘洋 , 唐琳琳 , 夏文 , 李君一 , 蒋琳 , 高翠芸

IPC: G06F30/27 , G06V20/40 , G06K9/62 , G06V10/774 , G06V10/764 , G06N20/00

Abstract: 本发明公开了一种基于模型的近端策略优化方法，包括步骤：获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络；基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧；基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像；基于所述预测图像，更新所述状态数据，得到更新的状态数据；基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络。融合基于模型的深度强化学习算法，提出了基于模型的近端策略优化框架，较好的解决了非完全信息博弈环境下采样利用率低的问题，在提高采样率的同时提升训练速度。

Patent Agency Ranking