基于三维视觉语言预训练的端到端自动驾驶规划方法

    公开(公告)号:CN119773804A

    公开(公告)日:2025-04-08

    申请号:CN202411893185.3

    申请日:2024-12-20

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于三维视觉语言预训练的端到端自动驾驶规划方法,所述方法包括以下步骤:获取多视角鸟瞰特征X,多视角鸟瞰特征X输入预训练的BEVformer中的BEV编码器计算全局视觉特征;将环境真实描述集成到基于BERT结构的文本注意块中,以获得文本表示;计算分组对齐损失;将全局视觉特征和提示特征输入到语言模型中,语言模型输出词向量,训练基于三维视觉语言预训练的生成式端到端自动驾驶规划模型;将实际的多视角图像输入自动驾驶规划模型,输出实际自动驾驶规划路径。与现有技术相比,本发明具有提高路径规划实时性和泛化能力等优点。

    一种视频动作检测的提示裁剪方法

    公开(公告)号:CN119851180A

    公开(公告)日:2025-04-18

    申请号:CN202411924951.8

    申请日:2024-12-25

    Applicant: 同济大学

    Abstract: 本发明涉及一种视频动作检测的提示裁剪方法,方法包括以下步骤:1)获取视频数据,设置非关键帧标记、提示标记、关键帧标记;2)标记化处理后的视频数据输入视频动作检测模型中,得到裁剪后关键帧标记;3)提议标记和裁剪后的提示标记经过视频动作检测模型的解码器输出最终的特征序列,所述最终的特征序列包括标有提议标记的提议特征和标有裁剪后的提示标记的提示特征,基于最终的特征序列得到视频动作识别结果。与现有技术相比,本发明具有显著降低计算复杂度的同时保留关键帧实现视频动作检测全面优化等优点。

Patent Agency Ranking