-
公开(公告)号:CN110531617B
公开(公告)日:2021-01-08
申请号:CN201910695765.4
申请日:2019-07-30
Applicant: 北京邮电大学
Abstract: 本发明公开了多无人机3D悬停位置联合优化方法、装置和无人机基站。该方法首先获取无人机所处的异构网络的状态信息;将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的悬停位置的回报函数值;基于异策略深度确定梯度策略算法,求取更新的梯度,多个无人机同步更新策略参数;根据更新梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。该装置包括状态获取单元、回报单元、梯度更新单元和训练单元。无人机基站,其处理器可执行本发明方法。本发明实现了多无人机在环境中自主学习,可以适应动态、非平稳的环境变化。
-
公开(公告)号:CN110488861B
公开(公告)日:2020-08-28
申请号:CN201910697007.6
申请日:2019-07-30
Applicant: 北京邮电大学
IPC: G05D1/10
Abstract: 本发明公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机,该方法预先构建强化学习网络,在无人机飞行过程中实时产生状态数据、动作决策数据;以状态数据为输入、以所述动作决策数据为输出,以瞬时能量效率为奖励回报,利用PPO算法优化策略参数,输出最优策略。该装置包括构建模块、训练数据收集模块和训练模块。该无人机包括处理器,该处理器用于执行本发明的基于深度强化学习的无人机轨迹优化方法。本发明具备从累积的飞行数据中进行自主学习的能力,可在未知通信场景下,智能决定其最佳飞行速度、加速度、飞行方向与返航时间,归纳出能量效率最优飞行策略,具有较强的环境适应能力与泛化能力。
-
公开(公告)号:CN110488861A
公开(公告)日:2019-11-22
申请号:CN201910697007.6
申请日:2019-07-30
Applicant: 北京邮电大学
IPC: G05D1/10
Abstract: 本发明公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机,该方法预先构建强化学习网络,在无人机飞行过程中实时产生状态数据、动作决策数据;以状态数据为输入、以所述动作决策数据为输出,以瞬时能量效率为奖励回报,利用PPO算法优化策略参数,输出最优策略。该装置包括构建模块、训练数据收集模块和训练模块。该无人机包括处理器,该处理器用于执行本发明的基于深度强化学习的无人机轨迹优化方法。本发明具备从累积的飞行数据中进行自主学习的能力,可在未知通信场景下,智能决定其最佳飞行速度、加速度、飞行方向与返航时间,归纳出能量效率最优飞行策略,具有较强的环境适应能力与泛化能力。
-
公开(公告)号:CN110531617A
公开(公告)日:2019-12-03
申请号:CN201910695765.4
申请日:2019-07-30
Applicant: 北京邮电大学
Abstract: 本发明公开了多无人机3D悬停位置联合优化方法、装置和无人机基站。该方法首先获取无人机所处的异构网络的状态信息;将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的悬停位置的回报函数值;基于异策略深度确定梯度策略算法,求取更新的梯度,多个无人机同步更新策略参数;根据更新梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。该装置包括状态获取单元、回报单元、梯度更新单元和训练单元。无人机基站,其处理器可执行本发明方法。本发明实现了多无人机在环境中自主学习,可以适应动态、非平稳的环境变化。
-
-
-