基于状态轨迹的对抗式模仿学习方法及装置

发明授权

请登陆查看更多内容

专利标题： 基于状态轨迹的对抗式模仿学习方法及装置
申请号： CN202010489159.X

申请日： 2020-06-02
公开(公告)号： CN111856925B

公开(公告)日： 2021-12-03
发明人: 杨君 , 王亚伟 , 张明 , 芦维宁 , 李志恒 , 梁斌
申请人： 清华大学
申请人地址： 北京市海淀区清华园
专利权人： 清华大学
当前专利权人： 清华大学
当前专利权人地址： 北京市海淀区清华园
代理机构： 北京清亦华知识产权代理事务所
代理商 石茵汀
主分类号： G05B13/04
IPC分类号： G05B13/04

摘要：

本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置，其中，该方法包括：获取专家决策下的状态轨迹，将状态轨迹存入专家数据缓存器；构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络；基于状态轨迹和离轨策略算法的对抗式模仿学习过程，对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新；根据更新的多个网络生成更新后的策略模型，对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

公开/授权文献

CN111856925A 基于状态轨迹的对抗式模仿学习方法及装置公开/授权日：2020-10-30

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G05	控制；调节
G05B	一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置（应用流体作用的一般流体压力执行器或系统入F15B；阀门本身入F16K；仅按机械特征区分的入G05G；传感元件见相应小类，例如G12B，G01、H01的小类；校正单元见相应的小类，例如H02K）
G05B13/00	自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统（G05B19/00优先；机器学习G06N 20/00）
G05B13/02	.电的
G05B13/04	..包括使用模型或模拟器的