-
公开(公告)号:CN117464687A
公开(公告)日:2024-01-30
申请号:CN202311655229.4
申请日:2023-12-05
Applicant: 哈尔滨工业大学
IPC: B25J9/16
Abstract: 一种基于深度强化学习的非合作目标捕获方法,它属于空间机械臂控制与非合作目标捕获领域。本发明解决了当同时要求目标捕获和能量、时间损失性能优化时,现有深度强化学习算法训练的时间成本高以及目标捕获的成功率低的问题。本发明针对空间机械臂非合作目标抓捕这类复杂高维控制问题,提出了预训练加主任务训练的方法,在预训练过程中完成目标抓捕任务,并在主任务训练过程中对抓捕时的待优化目标函数进行优化,解决了在训练过程中同时进行抓捕和目标函数优化时存在的训练成功率低,算法难以收敛的问题,而且训练时间成本较低、利用训练好的控制策略进行目标捕获的成功率高。本发明方法可以应用于非合作目标捕获。
-
公开(公告)号:CN116442235A
公开(公告)日:2023-07-18
申请号:CN202310528161.7
申请日:2023-05-11
Applicant: 哈尔滨工业大学
IPC: B25J9/16
Abstract: 基于无模型强化学习的漂浮基空间机械臂末端位置控制方法,它属于空间机械臂控制领域。本发明解决了基于现有的无模型强化学习算法得到的控制器缺乏鲁棒性和稳定性的问题。本发明将Lyapunov方法引入强化学习,使得通过强化学习得到的算法具有了稳定性保障,提升了算法对环境参数变化和外部扰动的鲁棒性。基于采样的Lyapunov稳定性条件,从而可以在无需系统模型的条件下通过Lyapunov方法对系统稳定性进行判断,在无模型优化过程中加入对策略稳定性的约束。采用了独立于价值函数、奖励函数的Lyapunov函数和Lyapunov代价函数,避免动作空间的探索受限并提升了更新效率。本发明方法可以应用于空间机械臂末端位置控制。
-
公开(公告)号:CN117464687B
公开(公告)日:2024-11-15
申请号:CN202311655229.4
申请日:2023-12-05
Applicant: 哈尔滨工业大学
IPC: B25J9/16
Abstract: 一种基于深度强化学习的非合作目标捕获方法,它属于空间机械臂控制与非合作目标捕获领域。本发明解决了当同时要求目标捕获和能量、时间损失性能优化时,现有深度强化学习算法训练的时间成本高以及目标捕获的成功率低的问题。本发明针对空间机械臂非合作目标抓捕这类复杂高维控制问题,提出了预训练加主任务训练的方法,在预训练过程中完成目标抓捕任务,并在主任务训练过程中对抓捕时的待优化目标函数进行优化,解决了在训练过程中同时进行抓捕和目标函数优化时存在的训练成功率低,算法难以收敛的问题,而且训练时间成本较低、利用训练好的控制策略进行目标捕获的成功率高。本发明方法可以应用于非合作目标捕获。
-
-