一种基于最优策略回放的室内机器人视觉导航方法

    公开(公告)号:CN117268385A

    公开(公告)日:2023-12-22

    申请号:CN202310869868.4

    申请日:2023-07-17

    Abstract: 本发明公开了一种基于最优策略回放的室内机器人视觉导航方法,分为on‑policy算法和off‑policy算法,通过在on‑policy中训练当前导航目标,在off‑policy中回顾旧导航目标来减少灾难性遗忘。该方法一个单特征提取网络和一个策略网络。策略网络的输入是状态特征提取网络的输出,即当前图像的高级特征图。整个网络的输出是两个函数:策略函数π(a|s)和价值函数Q(s|a)。整个训练过程分为两个阶段:on‑policy阶段和off‑policy阶段。在on‑policy阶段,代理通过与环境的交互学习新目标的策略,而在off‑policy阶段,代理使用存储在memory中的旧目标的最优经验来回顾已学习的策略,来防止灾难性遗忘。本发明度的利用了memory中的经验来学习旧导航目标的经验,可以最大限度的减少遗忘。

Patent Agency Ranking