Patent search ap:("北京邮电大学") AND inv:"常展" Page 1

1.

发明公开
一种基于多模态大模型的视觉信息提取方法审中-实审

公开(公告)号：CN119229456A

公开(公告)日：2024-12-31

申请号：CN202411267641.3

申请日：2024-09-11

Applicant: 北京邮电大学

Inventor： 王玉龙 , 张磊 , 常展 , 赵海秀

IPC: G06V30/19 , G06V30/148 , G06V30/146 , G06V30/18 , G06V10/82 , G06N3/045

Abstract: 一种基于多模态大模型的视觉信息提取方法，包括如下步骤：(1)使用三类专门数据，即文本定位数据、视觉参考数据和链式思考数据对多模态大模型进行微调；(2)用户上传目标图片并输入文字提示，根据情况触发模板库检索并添加上下文信息；(3)多模态大模型产生初步回复结果并结合OCR文字识别结果生成最终回复结果；(4)对话历史和元信息将被整合并保存到模板库中；本发明方法实现了结果文本框的准确输出，配合专用OCR模型完成了对大模型输出结果的纠错，提高了视觉信息提取的准确率和可信度。

Patent Agency Ranking