-
公开(公告)号:CN117475278A
公开(公告)日:2024-01-30
申请号:CN202311434166.X
申请日:2023-10-30
Applicant: 安徽大学
IPC: G06V10/82 , G06V10/26 , G06V10/40 , G06V10/44 , G06V10/74 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/0895 , G06N3/09
Abstract: 本发明公开了基于结构信息引导以车为中心的多模态预训练系统及方法,系统包括掩码自编码器、结构先验模块、语义先验模块及预训练模块;掩码自编码器用于对输入图像进行掩码并对掩码后的车辆图像进行重构;结构先验模块用于提取输入图像轮廓信息,利用轮廓信息和掩码自编码器的预测信息构建蒸馏损失;语义先验模块提取图像的视觉特征和文本描述的语义特征,计算视觉特征、语义特征及掩码自编码器模块的解码特征之间的相似度分布,构建跨模态对比学习损失;预训练模块用于不断进行预训练,直到达到迭代次数或者对应的损失函数值最小时停止训练;本发明的优点在于:提升了主干网络的特征提取能力,提升了以车为中心的感知任务的性能。