基于大语言模型端到端可解释的自动驾驶控制方法与系统

    公开(公告)号:CN119872583A

    公开(公告)日:2025-04-25

    申请号:CN202411950571.1

    申请日:2024-12-27

    Applicant: 江苏大学

    Abstract: 本发明公开了基于大语言模型端到端可解释的自动驾驶控制方法与系统,将前视相机捕获的视频帧作为输入,可以预测下一时刻控制信号和输出车辆当前行为的文本叙述;利用语言模型广泛的世界知识,赋予自动驾驶更加强大的逻辑推理能力;设计一个新的控制信号预测头,区别于以往简单的预测头,引入交叉协方差池化和归一化操作以聚合分词,探索更丰富的特征,有利于控制信号的预测。本发明公开的自动驾驶系统不仅可以提供精确的控制信号预测,还能给出基于自然语言的解释,从而增强系统的透明度和可解释性,有助于提升自动驾驶的安全性和用户信任度。

    一种基于大语言模型的自动驾驶三维场景数据预处理方法及系统

    公开(公告)号:CN118781267A

    公开(公告)日:2024-10-15

    申请号:CN202410746078.1

    申请日:2024-06-11

    Applicant: 江苏大学

    Abstract: 本发明公开了一种基于大语言模型的自动驾驶三维场景数据预处理方法及系统,文本端基于大语言模型对每个类别标签生成用于对比学习的提问范式,激发大语言模型的事实性知识,将事实性知识作为答案空间,针对自动驾驶任务的类别标签生成详细的类别模板,并将类别模板缓存到离线文件中,在下游模型训练时进行加载,拓展类别模板,强化最核心的类别短语;视觉端通过稀疏采样和密集采样获取输入视频序列的关键帧,使用视频随机数据增强方法,在采样得到的关键帧上执行图像变换,增强模型对视觉表征的鲁棒性。本发明对文本模态的信息和视觉模态的信息分别进行处理,不同预处理方法的融合可以捕获不同的先验知识,利用它们互补的特性实现更优的性能。

Patent Agency Ranking