Patent search ap:("北京工业大学") AND inv:"张轩歌" Page 1

1.

发明公开
一种基于分层视觉注入与混合注意力机制的多模态大模型方法审中-公开

公开(公告)号：CN120047785A

公开(公告)日：2025-05-27

申请号：CN202510124361.5

申请日：2025-01-26

Applicant: 北京工业大学

Inventor： 刘波 , 张轩歌 , 袁彤彤

IPC: G06V10/80 , G06V10/40 , G06F18/25 , G06F18/213 , G06N5/04

Abstract: 本发明提出的是一种基于分层视觉注入与混合注意力机制的多模态大模型方法。该方法首先通过预训练的视觉编码器提取输入图像的视觉特征序列，并将其投影到与大语言模型嵌入空间相同的维度。随后，在每一层中，利用混合注意力机制将视觉特征与文本特征进行高效融合，生成综合的键值序列，从而实现视觉与文本信息的协同处理。与现有多模态大模型相比，本发明有效解决了因序列长度增加而导致计算复杂度显著上升的问题。通过分层视觉注入与混合注意力机制，本方法在保持模型性能的同时，显著降低了整体计算成本，提升了多模态大模型计算效率。

Patent Agency Ranking