-
公开(公告)号:CN119773804A
公开(公告)日:2025-04-08
申请号:CN202411893185.3
申请日:2024-12-20
Applicant: 同济大学
Abstract: 本发明涉及一种基于三维视觉语言预训练的端到端自动驾驶规划方法,所述方法包括以下步骤:获取多视角鸟瞰特征X,多视角鸟瞰特征X输入预训练的BEVformer中的BEV编码器计算全局视觉特征;将环境真实描述集成到基于BERT结构的文本注意块中,以获得文本表示;计算分组对齐损失;将全局视觉特征和提示特征输入到语言模型中,语言模型输出词向量,训练基于三维视觉语言预训练的生成式端到端自动驾驶规划模型;将实际的多视角图像输入自动驾驶规划模型,输出实际自动驾驶规划路径。与现有技术相比,本发明具有提高路径规划实时性和泛化能力等优点。
-
公开(公告)号:CN119851180A
公开(公告)日:2025-04-18
申请号:CN202411924951.8
申请日:2024-12-25
Applicant: 同济大学
Abstract: 本发明涉及一种视频动作检测的提示裁剪方法,方法包括以下步骤:1)获取视频数据,设置非关键帧标记、提示标记、关键帧标记;2)标记化处理后的视频数据输入视频动作检测模型中,得到裁剪后关键帧标记;3)提议标记和裁剪后的提示标记经过视频动作检测模型的解码器输出最终的特征序列,所述最终的特征序列包括标有提议标记的提议特征和标有裁剪后的提示标记的提示特征,基于最终的特征序列得到视频动作识别结果。与现有技术相比,本发明具有显著降低计算复杂度的同时保留关键帧实现视频动作检测全面优化等优点。
-
公开(公告)号:CN119851179A
公开(公告)日:2025-04-18
申请号:CN202411924948.6
申请日:2024-12-25
Applicant: 同济大学
IPC: G06V20/40 , G06V40/20 , G06V10/25 , G06V10/44 , G06V10/52 , G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0455
Abstract: 本发明设计一种基于非线性时空相对位置偏置的视频动作检测方法,其特征在于,方法包括以下步骤:获取视频数据;将视频数据输入基于Transformer的视频动作检测模型,基于目标点和参考点采用非线性变换计算立方体的相对坐标;输出每个维度的非线性偏置,计算改进的相对位置偏置B,注意力机制输出关键时空特征;关键时空特征输入模型的分类模块,得到视频动作检测结果。与现有技术相比,本发明具有提高动作检测的精度的同时减少计算量等优点。
-
-