基于元强化学习的车辆自适应的自动驾驶决策方法及系统

    公开(公告)号:CN113044064B

    公开(公告)日:2022-07-29

    申请号:CN202110356309.4

    申请日:2021-04-01

    Applicant: 南京大学

    Abstract: 本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统,引入了一个任务编码模块,从车辆行车轨迹中识别当前车况信息,并编码为向量表示,使系统意识到当前车况,并且在车况发生改变时及时调整自身行车策略,使系统更加鲁棒、安全。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性;通过改变SAC强化学习算法,使其能够基于任务编码模块做出决策;通过最大化任务编码与采样轨迹之间的互信息的方式,使任务编码模块能够学习到一个包含丰富信息的任务编码。

    基于队友感知的多智能体协作通信策略的训练系统和方法

    公开(公告)号:CN114757092A

    公开(公告)日:2022-07-15

    申请号:CN202210297894.X

    申请日:2022-03-24

    Applicant: 南京大学

    Abstract: 本发明公开了提出一种基于队友感知的多智能体协作通信策略的训练系统和方法,借助于队友建模方法,在与队友交互的过程中,为队友生成定制化、稀疏化的消息。通过多智能体强化学习通信方法,使得智能体能够在带宽受限的条件下学得能够抗干扰的高效协作通信策略,训练得到的智能体协作通信策略可以使智能体既能根据自身得到的观测信息选择合理的协作动作,又能够在合适时刻向队友发送信息以促进协作,或根据收到的队友信息进行配合。本发明在带宽受限的实际场景中仅通过少量节点间的通信实现紧密有效的协作,能够保证多智能体协作通信过程中的抗干扰能力。

    基于部分可观测迁移强化学习的自动驾驶决策方法及系统

    公开(公告)号:CN111026127B

    公开(公告)日:2021-09-28

    申请号:CN201911373375.1

    申请日:2019-12-27

    Applicant: 南京大学

    Abstract: 本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。

    基于粒子注意力深度Q学习的部分观测路口自主并道方法

    公开(公告)号:CN113160562A

    公开(公告)日:2021-07-23

    申请号:CN202110337809.3

    申请日:2021-03-30

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。

    基于第三人称模仿学习的机械臂动作学习方法及系统

    公开(公告)号:CN111136659A

    公开(公告)日:2020-05-12

    申请号:CN202010040178.4

    申请日:2020-01-15

    Applicant: 南京大学

    Inventor: 章宗长 俞扬 姜冲

    Abstract: 本发明公开一种基于第三人称模仿学习的机械臂动作学习方法及系统,用于机械臂自动控制,使得机械臂可以通过观看第三方示范来自动学习如何完成相应的操控任务。本发明中样本均以视频形式存在,而无需使用大量传感器来获取状态信息;在判别器模块中使用了图像差分方法,可以使判别器模块忽略学习对象的外观与环境背景,从而可以使用第三方示范数据进行模仿学习;大大降低了样本的获取成本;通过在判别器模块中使用了变分判别器瓶颈来约束判别器对由机械臂产生的示范的判别准确率,更好地平衡判别器模块与控制策略模块的训练过程;本发明能够快速模仿用户示范的动作,操作简单灵活,对环境及示范者要求低。

Patent Agency Ranking