-
公开(公告)号:CN118550194A
公开(公告)日:2024-08-27
申请号:CN202410620812.X
申请日:2024-05-17
Applicant: 上海大学
IPC: G05B13/04
Abstract: 本发明公开一种基于动作约束的无人系统安全决策方法、系统及介质,涉及自动驾驶领域,方法包括:基于演员‑评论家算法设计无人系统的策略网络和多维价值网络;多维价值网络包括主干网络和多个辅助价值评估网络;一个辅助价值评估网络对应一个安全动作约束;策略网络用于根据无人系统当前的状态确定无人系统当前的策略动作;辅助价值评估网络用于判断无人系统当前的策略动作是否满足对应的安全动作约束;基于历史训练样本对策略网络和多维价值网络进行训练优化;将训练优化后的策略网络和多维价值网络确定为安全决策模型;获取无人系统当前的状态并输入安全决策模型,得到最优策略。本发明使无人系统在成功完成任务的同时能够做出安全决策。
-
公开(公告)号:CN118246515A
公开(公告)日:2024-06-25
申请号:CN202410445363.X
申请日:2024-04-12
Applicant: 上海大学
Abstract: 本发明公开一种无人系统稳定决策方法、产品、介质及设备,涉及强化学习领域,方法包括:初始化环境、经验池、各网络参数;将无人系统与环境交互产生的数据存储于经验池;计算集成策略价值网络损失并更新其参数;将该网络作为教师网络,计算学生网络综合损失并更新其参数;根据计算的累计误差评分对集成策略价值网络进行替换;根据更新后的集成策略价值网络,计算策略网络损失并更新其参数;若更新迭代次数未达到预设阈值,则返回步骤“将无人系统与环境交互产生的数据存储于经验池”;反之,则保存策略网络的参数,得到用于决策的策略网络。本发明能降低无人系统策略从虚拟到现实世界迁移过程中,数据分布变化引起的决策模型稳定性下降的问题。
-