-
公开(公告)号:CN119512184A
公开(公告)日:2025-02-25
申请号:CN202510082218.4
申请日:2025-01-20
Applicant: 清华大学
IPC: G05D1/49 , G05D109/12
Abstract: 本发明公开了一种基于约束奖励的深度强化学习四足机器人运动控制方法及系统,建立四足机器人深度强化学习的仿真训练环境;确定仿真训练环境的奖励函数、域随机化参数和成本约束函数;基于机器人信息和第一模拟环境信息,在仿真训练环境中通过奖励函数和成本约束函数对初始策略网络模型进行训练,得到训练完成的策略网络模型;建立推理测试环境,并将训练完成的策略网络模型部署至推理测试环境进行模型推理测试调优,得到目标策略网络模型;将目标策略网络模型部署至四足机器人中,以对四足机器人进行运动控制。本发明降低了仿真训练环境与真实环境的差异,使得四足机器人在真实环境中被目标策略网络模型稳定控制。
-
公开(公告)号:CN119512184B
公开(公告)日:2025-05-16
申请号:CN202510082218.4
申请日:2025-01-20
Applicant: 清华大学
IPC: G05D1/49 , G05D109/12
Abstract: 本发明公开了一种基于约束奖励的深度强化学习四足机器人运动控制方法及系统,建立四足机器人深度强化学习的仿真训练环境;确定仿真训练环境的奖励函数、域随机化参数和成本约束函数;基于机器人信息和第一模拟环境信息,在仿真训练环境中通过奖励函数和成本约束函数对初始策略网络模型进行训练,得到训练完成的策略网络模型;建立推理测试环境,并将训练完成的策略网络模型部署至推理测试环境进行模型推理测试调优,得到目标策略网络模型;将目标策略网络模型部署至四足机器人中,以对四足机器人进行运动控制。本发明降低了仿真训练环境与真实环境的差异,使得四足机器人在真实环境中被目标策略网络模型稳定控制。
-