-
公开(公告)号:CN118736576A
公开(公告)日:2024-10-01
申请号:CN202410822066.2
申请日:2024-06-25
Applicant: 中北大学
IPC: G06V20/70 , G06V10/82 , G06N3/0455 , G06N3/082 , G06N3/092 , G06N3/084 , G06N3/0985
Abstract: 本发明涉及图像描述方法和图像融合方法,尤其涉及多波段图像自动描述方法,具体为基于内存增强和软掩膜的多波段图像自动描述方法。将可见光图像特征、红外图像特征以及文本特征置于同一表征层级,在传统Transformer的基础上,构建内存增强模块用于存储多波段图像特征间的内在相关性以及语言上下文信息;同时,利用软掩膜机制筛选有效的视觉特征向量以及内存中存储的特征向量,以确保模型精确聚焦于关键视觉信息或语言上下文信息,可用于安防监控和军事侦察等复杂场景理解。
-
公开(公告)号:CN118736577A
公开(公告)日:2024-10-01
申请号:CN202410822208.5
申请日:2024-06-25
Applicant: 中北大学
IPC: G06V20/70 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/082 , G06N3/0499 , G06N3/0442 , G06N3/0895
Abstract: 本发明涉及图像描述方法和图像融合方法,尤其涉及多波段图像描述生成方法,具体为基于自监督学习和特征解耦的多波段图像描述生成方法。提取红外和可见光图像粗粒度融合特征的基础上,首先,利用所构建的特征解耦模块,基于两个结构相同的行、列级注意力机制解耦该两波段图像的不同粒度特征;然后,利用所构建的特征交叉融合模块,将解耦所得的不同粒度特征在多个特征子空间中进行融合增强,得到细粒度的融合特征图;最后,将融合好的特征输入到注意力机制增强的语言模型中进行解码生成描述,可用于安防监控和军事侦察等复杂场景理解。
-
公开(公告)号:CN116645666A
公开(公告)日:2023-08-25
申请号:CN202310594629.2
申请日:2023-05-25
Applicant: 中北大学
IPC: G06V20/70 , G06V10/80 , G06V10/40 , G06V10/82 , G06N3/0455 , G06N3/0442 , G06N3/0464 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及图像描述方法和图像融合方法,尤其涉及多波段图像描述生成方法,具体为基于特征融合的多波段图像描述生成方法。在将红外探测成像引入图像描述领域并建立可见光图像‑红外图像描述数据集的基础上,首先使用多层卷积神经网络分别对可见光图像和红外图像提取特征;再根据不同探测波段的互补性,设计特征融合增强模块在空间级和通道级实现特征的融合增强;最后,构建注意力机制增强模块,建立图像和文本的深度关系,消除传统加性注意力机制产生的噪声,实现多波段图像描述生成,可用于安防监控和军事侦察等复杂场景理解。
-
-