-
公开(公告)号:CN112518742B
公开(公告)日:2022-01-25
申请号:CN202011281615.8
申请日:2020-11-16
Applicant: 清华大学深圳国际研究生院
IPC: B25J9/16 , B25J13/00 , G06F30/27 , G06N7/00 , G06F113/28
Abstract: 本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法,本发明能够学习到完成整个目标空间的策略,在泛化性上比现有方法更有优势;本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率;相比其他离线值函数估计方法没有离线偏差,虽然存在模型误差,但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度,具有更好的表现。
-
公开(公告)号:CN112518742A
公开(公告)日:2021-03-19
申请号:CN202011281615.8
申请日:2020-11-16
Applicant: 清华大学深圳国际研究生院
IPC: B25J9/16 , B25J13/00 , G06F30/27 , G06N7/00 , G06F113/28
Abstract: 本发明公开了一种基于动态模型与事后经验回放的多目标机器人控制方法,本发明能够学习到完成整个目标空间的策略,在泛化性上比现有方法更有优势;本发明通过基于模型的值函数估计和事后经验回放提高了多目标强化学习中的数据利用效率;相比其他离线值函数估计方法没有离线偏差,虽然存在模型误差,但是本发明通过单步与多步值函数估计的加权求和权衡了模型误差和学习速度,具有更好的表现。
-