-
公开(公告)号:CN118608836A
公开(公告)日:2024-09-06
申请号:CN202410690190.8
申请日:2024-05-30
Applicant: 复旦大学
IPC: G06V10/764 , G06V10/80 , G06V10/774 , G06V10/82 , G06N3/09
Abstract: 本发明属于计算机多媒体技术领域,具体为一种细粒度场景图像分类的方法。本发明基于一种新的多模态特征融合方法,也称为模态无关适配器MAA使模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中进行预先设置。具体而言,本发明基于多层感知机MLP来消除各个模态在分布上的差异消除了不同模态之间的数据分布差异,然后使用了模态无关的Transformer编码器来进行语义级别的特征融合,再结合平均池化池化操作和全连接层实现细粒度场景图像分类。本发明提出的方法能够准确地实现细粒度场景图像分类,而且该模型可以很好地适应于新模态并进一步提高其性能。