-
公开(公告)号:CN115878983A
公开(公告)日:2023-03-31
申请号:CN202211597492.8
申请日:2022-12-12
Applicant: 杭州电子科技大学
IPC: G06F18/213 , G06F18/25 , G06F17/16 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于多层次交互融合的多模态数据场景识别方法。使用自动驾驶场景下车载传感器收集的视频数据和车载数据,分别提取三种单模态特征,包括基于双阶段注意力机制的多示例学习获取视频中2D级别的特征;通过多层时空注意力网络提取出场景视频中的3D时空特征,同时加入了车载信息特征向量一起训练,进行交互;以及对车载信息特征向量进行训练。完成三个模态的特征提取后,进行相似度损失的计算,在训练过程中最大化三个模态的相似部分,并基于多层自注意力网络对三个模态的特征进行交互,最后进行分类操作。该方法能利用已有的视频和车载信息交互,补充信息,提高识别场景识别速度和精度。