-
公开(公告)号:CN116580275A
公开(公告)日:2023-08-11
申请号:CN202310545491.7
申请日:2023-05-15
Applicant: 中国矿业大学
IPC: G06V10/80 , G06V10/82 , G06V10/26 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/09
Abstract: 本发明公开了一种本发明公开了一种基于多模态层次关系建模的RGB‑T目标跟踪方法,通过堆叠多层的Transformer编码器结构,利用自注意力机制在图像特征学习的多个阶段渐进式地聚集并融合多模态图像特征。在整个网络的多模态交互过程中,利用基于图像块的动态部件特征融合模块,动态求解跟踪场景中每个区域的可见光信息的重要程度,从而调节可见光信息和红外信息在跟踪过程中的相互作用,更好地适应复杂性场景,获得更好的跟踪性能。
-
公开(公告)号:CN115375948A
公开(公告)日:2022-11-22
申请号:CN202211113015.X
申请日:2022-09-14
Applicant: 中国矿业大学
IPC: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06T7/246 , G06T5/20 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于全局注意力的卷积‑Transformer的RGB‑T目标跟踪网络方法,输入是一对来自视频流中的可见光和红外图像,通过构建卷积‑Transformer特征提取网络,共享参数的Transformer分支处理多模态数据的共享特征并建立全局信息模型。独立的卷积分支则处理各个模态的独立特征。结合全局与局部、共享和独立信息特征以充分挖掘多模态数据的可利用信息。然后通过交叉注意融合模块利用交叉注意力建立模态之间全局对应关系以加强模态间的信息交互,实现深度融合。通过ROIAlign层将候选样本映射成固定大小的特征。最后,由每个候选样本映射的融合特征被送入全连接层以预测分数由二元分类层获得。
-