一种基于多模态大模型的视觉信息提取方法

    公开(公告)号:CN119229456A

    公开(公告)日:2024-12-31

    申请号:CN202411267641.3

    申请日:2024-09-11

    Abstract: 一种基于多模态大模型的视觉信息提取方法,包括如下步骤:(1)使用三类专门数据,即文本定位数据、视觉参考数据和链式思考数据对多模态大模型进行微调;(2)用户上传目标图片并输入文字提示,根据情况触发模板库检索并添加上下文信息;(3)多模态大模型产生初步回复结果并结合OCR文字识别结果生成最终回复结果;(4)对话历史和元信息将被整合并保存到模板库中;本发明方法实现了结果文本框的准确输出,配合专用OCR模型完成了对大模型输出结果的纠错,提高了视觉信息提取的准确率和可信度。

Patent Agency Ranking