-
公开(公告)号:CN119559640A
公开(公告)日:2025-03-04
申请号:CN202411686076.4
申请日:2024-11-24
Applicant: 北京工业大学
IPC: G06V20/70 , G06V10/82 , G06V10/40 , G06V10/77 , G06N3/0455 , G06N3/0495 , G06N3/082
Abstract: 本发明公开了基于异构映射网络和多层级特征增强的轻量化图像描述系统,包括如下步骤:采用编码器‑解码器的基础框架搭建该系统,采用训练成熟的多模态大模型CLIP和语言大模型GPT‑2分别作为系统的编码器和解码器。在编码器和解码器之间设置了并行的异构映射网络通道用以实现对图像特征进行更全面的特征提取和特征映射。将每个映射通道的映射输出利用交叉注意力机制同解码器连接构成第一层特征增强机制,将三个通道映射输出拼接后的综合输出同解码器连接构成第二层特征增强机制。利用所设计的轻量化框架、异构映射网络和多层级特征增强机制对实现过程进行总体设计,构成整体模型实现对图像的自动化描述。