一种基于强化学习的无人船路径跟踪方法

    公开(公告)号:CN112947431A

    公开(公告)日:2021-06-11

    申请号:CN202110149076.0

    申请日:2021-02-03

    IPC分类号: G05D1/02

    摘要: 本发明提出了一种基于强化学习的无人船路径跟踪方法,包括设定无人船的跟踪路径;对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数;无人船根据控制策略参数执行路径跟踪任务;本发明提出的基于强化学习的无人船路径跟踪方法,策略训练过程采用PPO算法来提高动作策略参数的收敛性,且算法迭代过程无需人为干预,并且由于智能体主动与环境进行交互,环境中的各类干扰因素可以被智能体学习,简化了无人船路径跟踪控制器的设计过程,有效替代人力资源、提升了作业效率。

    一种基于强化学习的无人船路径跟踪方法

    公开(公告)号:CN112947431B

    公开(公告)日:2023-06-06

    申请号:CN202110149076.0

    申请日:2021-02-03

    IPC分类号: G05D1/02

    摘要: 本发明提出了一种基于强化学习的无人船路径跟踪方法,包括设定无人船的跟踪路径;对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数;无人船根据控制策略参数执行路径跟踪任务;本发明提出的基于强化学习的无人船路径跟踪方法,策略训练过程采用PPO算法来提高动作策略参数的收敛性,且算法迭代过程无需人为干预,并且由于智能体主动与环境进行交互,环境中的各类干扰因素可以被智能体学习,简化了无人船路径跟踪控制器的设计过程,有效替代人力资源、提升了作业效率。