-
公开(公告)号:CN115356923A
公开(公告)日:2022-11-18
申请号:CN202210897910.9
申请日:2022-07-28
Applicant: 清华大学
IPC: G05B13/04
Abstract: 本申请公开了一种部分可观测马尔科夫决策问题的双循环式应用方法及系统,其中,方法包括:获取汽车的观测数据;在部分可观测马尔科夫决策过程中,基于观测数据以极大似然估计的方法构建历史信息表征的同时,将隐状态模型的梯度信息作为内在奖励函数,激励最优策略学习到环境中的不确定性,求解部分可观测马尔科夫决策的最优策略;以及基于部分可观测马尔科夫决策的最优策略生成汽车的最优控制策略。由此,能够满足在部分可观测及观测中带有噪声的不确定性场景中,求解最优策略,并满足相应的驾驶性能,提升了求解方法对观测不确定性的鲁棒性。
-
公开(公告)号:CN115356923B
公开(公告)日:2025-05-13
申请号:CN202210897910.9
申请日:2022-07-28
Applicant: 清华大学
IPC: G05B13/04
Abstract: 本申请公开了一种部分可观测马尔科夫决策问题的双循环式应用方法及系统,其中,方法包括:获取汽车的观测数据;在部分可观测马尔科夫决策过程中,基于观测数据以极大似然估计的方法构建历史信息表征的同时,将隐状态模型的梯度信息作为内在奖励函数,激励最优策略学习到环境中的不确定性,求解部分可观测马尔科夫决策的最优策略;以及基于部分可观测马尔科夫决策的最优策略生成汽车的最优控制策略。由此,能够满足在部分可观测及观测中带有噪声的不确定性场景中,求解最优策略,并满足相应的驾驶性能,提升了求解方法对观测不确定性的鲁棒性。
-
公开(公告)号:CN118964791A
公开(公告)日:2024-11-15
申请号:CN202410966744.2
申请日:2024-07-18
Applicant: 清华大学
Abstract: 本申请提出了一种面向自动驾驶汽车的约束型环境安全探索方法,涉及自动驾驶技术领域,其中,该方法包括:步骤S1:获取初始的不确定模型;步骤S2:采用不动点迭代求解不确定模型下的最大可行区域;步骤S3:遍历最大可行区域内的所有状态动作对,通过与环境交互采集环境数据;步骤S4:利用最大可行区域内的环境数据,采用最大团搜索求解最大可行区域下的近似最小不确定模型,并将不确定模型更新为近似最小不确定模型;步骤S5:迭代进行步骤S2‑S4,直至最大可行区域和不确定模型不再更新,得到驾驶策略的最大可行区域。采用上述方案的本发明能够获取约束型环境中可安全探索的最大可行区域。
-
公开(公告)号:CN119599088A
公开(公告)日:2025-03-11
申请号:CN202411432359.6
申请日:2024-10-14
Applicant: 清华大学
Abstract: 本申请涉及自动驾驶技术领域,特别涉及一种面向端到端自动驾驶的安全强化学习训练方法及装置,其中,方法包括:基于预设驾驶环境模型和不确定性约束衰减函数,检测车辆的当前决控策略的安全状态;利用预设集成模型拟合预设驾驶环境模型的分散随机误差;根据价值函数的自洽条件更新价值函数,评估当前决控策略的性能价值;根据不确定性约束衰减函数的自洽条件,更新不确定性约束衰减函数,扩展对应的可行区域;在安全状态达到预设等级时,基于随机误差、性能价值和扩展后的可行区域对当前决控策略进行迭代更新,直至当前决控策略的平均累计回报达到预设阈值或者达到最大迭代次数,得到最终可行决控策略,以强化目标自动驾驶系统。
-
-
-