基于模型不确定性与行为先验的控制策略离线训练方法

    公开(公告)号:CN115972211A

    公开(公告)日:2023-04-18

    申请号:CN202310064893.5

    申请日:2023-02-06

    Applicant: 南京大学

    Abstract: 本发明公开一种基于模型不确定性和行为先验的控制策略离线训练方法,通过在机械臂操作离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,在加权贝尔曼更新的框架下仅使用机械臂离线数据来训练机械臂的控制策略。本发明能够使机械臂控制策略在离线训练的过程中有选择性地利用机械臂的离线数据集,减小不可信的机械臂数据样本对策略训练的影响,同时使可信的机械臂数据样本仍然能对策略训练起到正向作用,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。

Patent Agency Ranking