Patent search ap:("南京大学") AND inv:"孔祥瀚" Page 1

1.

发明授权
基于部分可观测强化学习的机器人导航控制方法及系统有权

公开(公告)号：CN114911157B

公开(公告)日：2025-01-03

申请号：CN202210366719.1

申请日：2022-04-08

Applicant: 南京大学

Inventor： 章宗长 , 俞扬 , 孔祥瀚

IPC: G05B13/04

Abstract: 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统，该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务，本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中，使用状态粒子表示信念状态以减少信念状态更新的计算复杂度，使用基于学得模型的模拟规划以提高样本利用率，使用重采样方法防止粒子退化问题，使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习，并在实际机器人导航任务中使用学得的策略。

2.

发明公开
基于部分可观测强化学习的机器人导航控制方法及系统有权

公开(公告)号：CN114911157A

公开(公告)日：2022-08-16

申请号：CN202210366719.1

申请日：2022-04-08

Applicant: 南京大学

Inventor： 章宗长 , 俞扬 , 孔祥瀚

IPC: G05B13/04

Abstract: 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统，该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务，本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中，使用状态粒子表示信念状态以减少信念状态更新的计算复杂度，使用基于学得模型的模拟规划以提高样本利用率，使用重采样方法防止粒子退化问题，使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习，并在实际机器人导航任务中使用学得的策略。

Patent Agency Ranking