-
公开(公告)号:CN116175581A
公开(公告)日:2023-05-30
申请号:CN202310228383.7
申请日:2023-03-03
Applicant: 北京理工大学
IPC: B25J9/16
Abstract: 本发明涉及一种基于随机离散策略‑评价网络的强化学习机器人连续动作控制方法,属于强化学习技术领域。首先对机器人控制问题中的高维连续动作进行离散化,将整体连续动作空间按各个维度分别离散化,将每个动作维度视为一个智能体并分配一个独立策略;其次构建基于Actor‑Critic结构的强化学习模型,其中分解策略网络模块以离散动作概率分布的形式对机器人控制问题中各动作维度的局部策略进行分解表示,该网络可以优化算法整体的计算成本;集中评价网络模块用于对机器人控制的全局策略提供评价,最后,在训练过程中综合软强化学习思想,通过最大化随机熵提升采样效率,实现强化学习的高效收敛,并有效提升机器人的控制效果。
-
公开(公告)号:CN116088552A
公开(公告)日:2023-05-09
申请号:CN202310079110.0
申请日:2023-01-18
Applicant: 北京理工大学
Abstract: 本发明公布了一种基于自适应探索深度强化学习的无人机轨迹跟踪控制方法。在训练阶段,随机初始化网络参数以及参考轨迹,通过当前状态利用动作网络得到动作并以初始区间加入噪声,利用动作得到下一个状态以及对应奖励,将状态‑动作‑奖励‑下一个状态作为一个元组储存,利用储存的元组更新动作网络、惩罚网络以及价值网络的参数。本发明利用时间衰减与周期奖励来自适应探索,通过环境交互训练深度强化学习器,使深度强化学习器能更快的在任务中掌握学习的能力,大幅提高了深度强化学习的学习效率以及轨迹跟踪的准确率,对提升无人系统自主性和智能性以及复杂系统的无模型智能控制性能有非常重要的意义。
-
公开(公告)号:CN119690129A
公开(公告)日:2025-03-25
申请号:CN202510200319.7
申请日:2025-02-24
Applicant: 北京理工大学
IPC: G05D1/495 , G05D1/46 , G05D101/15 , G05D109/20
Abstract: 本申请涉及无人机自主控制技术领域,特别涉及一种无人机的飞行路径的规划方法、装置、无人机及存储介质。所述方法包括在无人机上部署经过训练的智能体;获取无人机的当前状态;基于当前状态,通过智能体确定所述无人机的轨迹控制点;基于轨迹控制点更新所述无人机的当前状态,并基于更新后的当前状态,通过智能体确定无人机的轨迹控制点,直至达到轨迹时长以生成所述无人机的时空轨迹。本申请实施例通过结合深度学习与多头注意力机制,通过多头注意力机制捕捉参考轨迹、无人机轨迹与环境障碍之间的复杂关系,使其能够灵活地调整飞行姿态穿越狭窄缝隙,从而提升无人机在复杂环境中的自主飞行能力,并且可以保证无人机在激进飞行中的安全性。
-
公开(公告)号:CN116627174A
公开(公告)日:2023-08-22
申请号:CN202310671133.0
申请日:2023-06-06
Applicant: 北京理工大学重庆创新中心
IPC: G05D1/10
Abstract: 本发明提供了一种基于强化学习的无人机B样条路径规划方法,替代传统的基于优化的无人机路径规划方法,有效避免最优化问题迭代求解所带来的计算量问题,实现在0.s秒内规划10个路径点以上的四旋翼无人机避障轨迹,有效提升四旋翼无人机在复杂环境下的机动性、灵活性、鲁棒性。基于上述强化学习的无人机B样条路径规划方法,本发明还进一步基于强化学习的无人机B样条路径规划系统,从而有效解决现有技术中存在的问题。
-
公开(公告)号:CN116224794A
公开(公告)日:2023-06-06
申请号:CN202310204847.0
申请日:2023-03-03
Applicant: 北京理工大学
IPC: G05B13/04
Abstract: 本发明涉及一种基于离散‑连续异构Q网络的强化学习连续动作控制方法,属于强化学习技术领域,尤其涉及基于值函数的强化学控制方法。本发明所设计的基于连续‑异构Q网络架构的强化学习方法充分利用了该架构的特点,在高效利用经验样本进行离线更新的同时,采用了一种∈‑高斯复合探索方法提升强化学习的探索效率,相比于常用的策略‑评价结构强化学习方法,有着更快的收敛速度以及更加稳定的训练过程,显著提升强化学习控制器应用于无人设备的控制效果。
-
-
-
-