-
公开(公告)号:CN117710917A
公开(公告)日:2024-03-15
申请号:CN202311456289.3
申请日:2023-11-03
Applicant: 北京大学
Abstract: 本发明涉及一种基于长短时序混合编码的端到端多模态多任务自动驾驶感知方法和装置。该方法的步骤包括:针对车载传感器的多帧输入,使用多个编码网络进行长短时序的特征提取;然后对提取的特征进行基于注意力机制的时序融合,并进行跨模态融合,并对每个任务生成BEV特征图,然后采用不同任务的解码器获得每个任务的预测结果。本发明能够动态调整网络推理速度与精度,能够提高在同样计算量下的网络性能,能够针对不同编码网络得到的多帧BEV特征图进行时序融合,对于动态物体能够更好地进行跨帧对齐。本发明能够生成多尺度的BEV特征,进行时序和跨模态融合后,保留多尺度特征,经过特征选择,能够分别给予各任务解码器不同尺度的特征图。
-
公开(公告)号:CN119068456A
公开(公告)日:2024-12-03
申请号:CN202411089565.1
申请日:2024-08-09
Applicant: 北京大学
IPC: G06V20/58 , G06V20/56 , G06V20/64 , G06V20/70 , G06V10/25 , G06V10/26 , G06V10/764 , G06V10/80 , G06V10/44 , G06V10/82
Abstract: 本发明一种基于领域专有模型与开放开集模型集成的自动驾驶感知方法,属于计算机视觉技术领域。本发明针对多摄像机图像输入或者多摄像机图像与雷达点云的多模态输入,通过领域专有模型分支给出多项自动驾驶感知任务的领域专有预测结果;通过开放开集模型分支给出多项自动驾驶感知任务的开放开集预测结果;最终,通过集成模块对领域专有预测结果和开放开集预测结果进行融合,得到兼具领域专有和开放开集优势的预测结果。本发明通过组合已有基础模型,并设计2D到3D物体转换模块,得到针对非白名单物体的3D目标检测开集模型,解决了无法通过数据驱动方式直接训练得到3D任务大模型的问题;且直接对各神经网络模块进行组合,不会引入额外的训练代价。
-