-
公开(公告)号:CN112801149A
公开(公告)日:2021-05-14
申请号:CN202110054062.0
申请日:2021-01-15
Applicant: 江苏大学
Abstract: 本发明提供一种基于深度强化学习的多车队列控制方法,将堆叠4帧的状态量作为网络的输入,使用车队共享网络的训练方法产生训练样本填充经验池;在训练过程中每个周期结束时对经验池进行备份;在经验池中进行采样训练网络。本发明使用车队共享网络,多车同时参加训练的训练方法,车队成员同时产生训练样本,大幅度缓解了连续动作空间探索效率低下的问题,利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好,模型可以应对更加复杂的工况。使用时序信息,堆叠4帧状态量作为网络输入,增强网络的鲁棒性。提出经验池备份方法,通过对经验池的备份和覆盖,剔除非法周期产生的样本,防止低效的样本抽取劣化训练效果。
-
公开(公告)号:CN120018088A
公开(公告)日:2025-05-16
申请号:CN202510109848.6
申请日:2025-01-23
Applicant: 江苏大学
IPC: H04W4/44 , G08G1/0967 , H04B7/185 , H04W84/06 , B60W60/00 , B60R16/023 , G01S19/42 , G06N3/092
Abstract: 本发明公开了一种天地一体多域融合的汽车高级别自动驾驶系统,通过卫星平台、云端平台和车端平台等多域信息融合,实现自动驾驶汽车更全面、无盲区的感知和定位,推动智能交通系统综合效能的全面升级。基于云端误差播发和高低轨卫星融合增强技术,解决了单一地面通信受限于基站覆盖度产生的汽车通信失联问题;基于云端强化学习架构,通过通信网络自适应切换,提升了天地一体系统的通信网络稳定性;基于平台搜集的车辆高精度轨迹数据建立道路语义地图以及决策控制经验池,通过云端联邦学习场景经验分享,弥补单车感知能力的局限性;车端通过局部地图匹配,实现对云端道路语义地图的动态更新;基于高精度定位为底盘多域融合技术实现提供信息支撑。
-
公开(公告)号:CN118982061A
公开(公告)日:2024-11-19
申请号:CN202411109882.5
申请日:2024-08-13
Applicant: 江苏大学
Abstract: 本发明公开了一面向多智能体可信交互式决策控制的联邦强化学习系统、方法及设备。系统框架采用基于机理模型的数据分析方法建立样本置信度综合量化指标,实现精准、全面、可解释的偏好建模,并依据偏好模型从目标对齐和协同优化角度,解构联邦强化学习算法,实现算法多层级解释;创新采用数据机理双驱动的混合视觉注意力模型,解决传统深度强化学习在城市复杂交通环境下的高维状态空间表征难题,实现高可用性算法表现;该系统将多智能体联邦强化学习协同优化过程建模为可解释的自组织性群体合作过程,通过偏好启发式参数聚合实现模型鲁棒性与样本效率之间的平衡,解决了城市自动驾驶算法可信任难题。
-
公开(公告)号:CN119018181A
公开(公告)日:2024-11-26
申请号:CN202411114237.2
申请日:2024-08-14
Applicant: 江苏大学
IPC: B60W60/00 , B60W50/00 , G06F18/2415 , G06F18/214 , G06V10/26 , G06N3/04
Abstract: 本发明公开了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备,在预训练阶段,使用CARLA模拟器中采集的数据,基于横摆角速度和现有奖励函数真值进行奖励函数的神经网络模型预训练,为奖励函数模型提供一定的先验知识,有助于加速模型的收敛过程。在奖励函数学习阶段,采用人类偏好以修正和优化奖励函数,通过奖励预测值和实际偏好的交叉熵损失并在损失函数中加入L2正则化,以确保学习行为更贴近人类决策,并防止奖励黑客现象,从而实现自动驾驶系统的决策与人类价值观的对齐。在智能体学习阶段,利用PPO算法和多通道BEV作为环境输入,结合油门开度与转角的向量输出进行实时训练,确保了自动驾驶系统的实时响应性和安全性。
-
公开(公告)号:CN116834774A
公开(公告)日:2023-10-03
申请号:CN202310902155.3
申请日:2023-07-21
Applicant: 江苏大学
IPC: B60W60/00 , B60W50/00 , G06V20/56 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于复杂网络认知的联邦强化学习端到端自动驾驶控制系统及方法、车用设备,提供一种城市稠密交通下基于复杂网络认知的联邦强化学习端到端自动驾驶算法框架FLDPPO,通过设计损失函数,实现基于规则的复杂网络认知和端到端联邦强化学习的结合。FLDPPO使用动态的驾驶建议,引导智能体学习规则,使得智能体应对复杂的城市驾驶环境和密集的交通场景。并且,所提出框架使用多智能联邦强化学习架构,通过参数聚合的方式训练模型,在保护车端隐私的基础上,加速网络收敛,降低通信消耗,实现样本效率模型高鲁棒性的平衡。
-
公开(公告)号:CN118379878B
公开(公告)日:2024-12-31
申请号:CN202410491756.4
申请日:2024-04-23
Applicant: 江苏大学
IPC: G08G1/01 , G08G1/0967 , G08G1/0968 , G06N3/092 , G06N3/098
Abstract: 本发明公开了基于联邦强化学习的多智能体车路云一体化协同决控架构系统及方法。采用内嵌车辆动力学特性的多智能体联邦强化学习决控框架,解决了智能交通系统和智能汽车深度融合问题,实现了车辆与交通深度决控协同的自动驾驶;在路端生成语义矩阵,作为车端强化学习输入,构建路端指导的车端全局、局部轨迹规划;基于路端构建的行车安全场设计车端强化学习的融合奖励函数,实现车端安全性舒适性综合考量;基于路端联邦学习,通过V2I通信上传车端神经网络参数,解决了隐私意识导致的车路信息不对称难题;针对不同环境样本分布,通过神经网络筛选选择针对当前环境的局部最优策略,合成受益于不同环境的共享模型,实现样本效率和模型鲁棒性的平衡。
-
公开(公告)号:CN118411843A
公开(公告)日:2024-07-30
申请号:CN202410491758.3
申请日:2024-04-23
Applicant: 江苏大学
IPC: G08G1/0967 , G08G1/01
Abstract: 本发明公开了基于数据机理耦合建模的车路协同控制架构系统及构建方法,针对自动驾驶传统机理建模难度大的问题,提出数据与机理融合驱动的多智能体系统建模,基于联邦强化学习的车路协同群体优化方法,建立基于多维度经验共享的车辆决策模型参数更新技术,解决了纯数据驱动模型的可解释性、泛化性难题。搭建基于规则的行车安全场,实现规则引导下的数据驱动训练;构建基于智能底盘的二次规划控制框架,提出基于底盘反馈的状态量输入,解决了纯数据驱动可信度存疑、依赖大规模数据、决策过程不透明不可解释等问题;构建了舒适性量化指标筛选针对当前环境的最优策略,通过合成受益于不同环境的共享模型,实现样本效率和模型鲁棒性之间的平衡。
-
公开(公告)号:CN112801149B
公开(公告)日:2024-06-11
申请号:CN202110054062.0
申请日:2021-01-15
Applicant: 江苏大学
IPC: G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于深度强化学习的多车队列控制方法,将堆叠4帧的状态量作为网络的输入,使用车队共享网络的训练方法产生训练样本填充经验池;在训练过程中每个周期结束时对经验池进行备份;在经验池中进行采样训练网络。本发明使用车队共享网络,多车同时参加训练的训练方法,车队成员同时产生训练样本,大幅度缓解了连续动作空间探索效率低下的问题,利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好,模型可以应对更加复杂的工况。使用时序信息,堆叠4帧状态量作为网络输入,增强网络的鲁棒性。提出经验池备份方法,通过对经验池的备份和覆盖,剔除非法周期产生的样本,防止低效的样本抽取劣化训练效果。
-
公开(公告)号:CN119821428A
公开(公告)日:2025-04-15
申请号:CN202510211184.4
申请日:2025-02-25
Applicant: 江苏大学
IPC: B60W50/00 , G06N3/092 , G06N3/0499
Abstract: 本发明公开了场景驱动的高泛化性联邦强化学习自动驾驶系统及方法,模仿学习专家从专家演示中学习隐式专家偏好,结合动态驾驶建议实现对强化学习学生特征提取、奖励函数建模、损失函数构建,群体优化多角度指导,针对性解决强化学习目标对齐难题;模仿学习专家,通过交叉注意力增强多学习任务之间的联系,实现场景深度感知和场景语义感知嵌入指导下的鸟瞰图重构过程。通过跨场景优化,实现不同专家数据分布之间的特异性经验共享,训练高普适性模仿学习专家;通过提出的奖励函数解码器输出运动规划、奖励反馈和动态驾驶建议作为强化学习学生训练和优化依据,实现驾驶规则的学习。通过时序处理模块结合知识蒸馏,提高原始图像输入的表征能力。
-
公开(公告)号:CN116834774B
公开(公告)日:2025-03-14
申请号:CN202310902155.3
申请日:2023-07-21
Applicant: 江苏大学
IPC: B60W60/00 , B60W50/00 , G06V20/56 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于复杂网络认知的联邦强化学习端到端自动驾驶控制系统及方法、车用设备,提供一种城市稠密交通下基于复杂网络认知的联邦强化学习端到端自动驾驶算法框架FLDPPO,通过设计损失函数,实现基于规则的复杂网络认知和端到端联邦强化学习的结合。FLDPPO使用动态的驾驶建议,引导智能体学习规则,使得智能体应对复杂的城市驾驶环境和密集的交通场景。并且,所提出框架使用多智能联邦强化学习架构,通过参数聚合的方式训练模型,在保护车端隐私的基础上,加速网络收敛,降低通信消耗,实现样本效率模型高鲁棒性的平衡。
-
-
-
-
-
-
-
-
-