Patent search ap:("厦门大学") AND inv:"林玮煌" Page 1

1.

发明公开
基于多模态大语言模型的对话生成方法及装置审中-实审

公开(公告)号：CN119938874A

公开(公告)日：2025-05-06

申请号：CN202510436346.4

申请日：2025-04-09

Applicant: 厦门大学

Inventor： 孙晓帅 , 马祎炜 , 纪荣嵘 , 林玮煌 , 纪家沂

IPC: G06F16/3329 , G06F40/126 , G06F40/279 , G06T9/00

Abstract: 本发明公开了一种基于多模态大语言模型的对话生成方法及装置，涉及对话生成领域，包括：获取查询语句和图像并输入到经微调的多模态大语言模型，图像输入到预训练的图像编码器中，得到多尺度编码特征和选定图像特征，多尺度编码特征经过多层聚合模块，提取得到低级图像特征和高级图像特征；将查询语句输入到文本编码器中，得到文本特征；将以上特征输入到模内及模间增强模块中进行增强，得到增强的图像特征并沿通道连接后经过多层感知机模块进行投影，得到视觉符元；将查询语句输入到预训练的分词器中进行分词，得到文本符元；将视觉符元和文本符元输入到经训练的大语言模型，生成回答语句。本发明解决现有的MLLM未考虑模内和模间相关性问题。

Patent Agency Ranking