-
公开(公告)号:CN119229456A
公开(公告)日:2024-12-31
申请号:CN202411267641.3
申请日:2024-09-11
Applicant: 北京邮电大学
IPC: G06V30/19 , G06V30/148 , G06V30/146 , G06V30/18 , G06V10/82 , G06N3/045
Abstract: 一种基于多模态大模型的视觉信息提取方法,包括如下步骤:(1)使用三类专门数据,即文本定位数据、视觉参考数据和链式思考数据对多模态大模型进行微调;(2)用户上传目标图片并输入文字提示,根据情况触发模板库检索并添加上下文信息;(3)多模态大模型产生初步回复结果并结合OCR文字识别结果生成最终回复结果;(4)对话历史和元信息将被整合并保存到模板库中;本发明方法实现了结果文本框的准确输出,配合专用OCR模型完成了对大模型输出结果的纠错,提高了视觉信息提取的准确率和可信度。