基于状态轨迹的对抗式模仿学习方法及装置
摘要:
本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置,其中,该方法包括:获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器;构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
公开/授权文献
0/0