一种基于互注意力融合和蒸馏机制的场景识别方法和系统

    公开(公告)号:CN117409268A

    公开(公告)日:2024-01-16

    申请号:CN202311290732.4

    申请日:2023-10-08

    Inventor: 孙宁 许伟 梁德志

    Abstract: 本发明公开了一种基于互注意力融合和蒸馏机制的场景识别方法和系统,适用于多模态场景,包括以下步骤:使用卷积神经网络对多模态场景数据集进行训练;将RGB图像和HHA图像进行序列化并添加位置编码,以得到RGB数据、HHA数据以及早期融合数据;构建端到端可训练的神经网络模型SAD,其中,SAD包括场景特征提取网络FEN、互补性特征融合模块CFB以及蒸馏模块;将未序列化的多模态场景数据集作为蒸馏模块输入,将此前得到的三种数据作为FEN输入,之后再通过CFB模块,并使用蒸馏模块指导整个网络的训练;图像经过序列化后得到相应数据,经过FEN提取多模态场景的特征后,再输入CFB模块得到该图像的场景类别。本发明的方法和系统提高了多模态场景识别的准确率。

Patent Agency Ranking