基于最大熵的演员-评论家框架的AUV运动规划方法

    公开(公告)号:CN113534668A

    公开(公告)日:2021-10-22

    申请号:CN202110930108.0

    申请日:2021-08-13

    Abstract: 本发明公开了基于最大熵的演员‑评论家框架的AUV运动规划方法,包括以下步骤:S1:构建AUV操纵性模型;S2:确定AUV的状态空间与动作空间;S3:基于MDP决策过程,提出基于最大熵的强化学习算法,构建神经网络结构,搭建AUV运动规划系统;S4:设置一个综合的奖励函数来评估AUV决策的优劣,指导AUV完成运动规划任务的目标:在躲避障碍物到达目标点的同时,航行路程及所用时间达到最优;S5:通过自交互训练获得最优策略,保存训练好的神经网络参数,将最优策略对应的具体指令传递给下位机,最终实现感知‑规划‑控制的运动规划过程;本发明能够发现到达目标位置的多种策略,在应对各种突发态势时有较好的鲁棒性,且能在多约束的条件下顺利完成指定任务。

    一种基于深度强化学习的水下自主航行器动态避障方法

    公开(公告)号:CN112925319A

    公开(公告)日:2021-06-08

    申请号:CN202110098934.3

    申请日:2021-01-25

    Abstract: 一种基于深度强化学习的水下自主航行器动态避障方法,涉及水下机器人避障技术领域。本发明是为了解决目前缺乏水下自主航行器对动态障碍物的避障研究的问题。本发明建立水下自主航行器模型与运动学模型,获取周围障碍物的信息;采集水下自主航行器周围机动障碍物的运动状态信息,并构造动态障碍物状态方程;根据动态障碍物状态方程预测动态障碍物运动学模型;根据水下自主航行器周围障碍物的信息和动态障碍物运动学模型,融合多动态障碍物避障法生成避障策略并转化为MDP模型;结合确定性深度策略梯度算法对MDP模型进行训练,直至水下自主航行器能够无碰撞的到达目标区域;利用训练好的MDP模型引导水下自主航行器航行。

    一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法

    公开(公告)号:CN112241176A

    公开(公告)日:2021-01-19

    申请号:CN202011109095.2

    申请日:2020-10-16

    Abstract: 本发明是一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法。本发明涉及水下机器人路径避障规划技术领域,本发明建立存在大尺度连续性障碍物模拟训练环境,以避障传感器信息为输入,航行速度和偏航角速度为输出搭建深度强化学习神经网络的状态与动作,针对运动规划避障控制过程的多目标结构,对奖赏函数进行了模块化设计,为了避免稀疏奖励引起系统不稳定,结合人工势场法设置连续性奖励。本发明利用基于改进的深度确定性策略梯度算法,对水下自主航行器进行避障训练,将训练所得到的避障策略写入机器人下位机控制系统;水下自主航行器在水下峡谷中行驶时,利用训练学习到的避障策略进行避障,安全的到达目标区域。

Patent Agency Ranking