一种基于分层视觉注入与混合注意力机制的多模态大模型方法

    公开(公告)号:CN120047785A

    公开(公告)日:2025-05-27

    申请号:CN202510124361.5

    申请日:2025-01-26

    Abstract: 本发明提出的是一种基于分层视觉注入与混合注意力机制的多模态大模型方法。该方法首先通过预训练的视觉编码器提取输入图像的视觉特征序列,并将其投影到与大语言模型嵌入空间相同的维度。随后,在每一层中,利用混合注意力机制将视觉特征与文本特征进行高效融合,生成综合的键值序列,从而实现视觉与文本信息的协同处理。与现有多模态大模型相比,本发明有效解决了因序列长度增加而导致计算复杂度显著上升的问题。通过分层视觉注入与混合注意力机制,本方法在保持模型性能的同时,显著降低了整体计算成本,提升了多模态大模型计算效率。

Patent Agency Ranking