一种基于跨模态大语言模型的场景文本检测与识别方法

    公开(公告)号:CN117851883A

    公开(公告)日:2024-04-09

    申请号:CN202410006211.X

    申请日:2024-01-03

    Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法,该方法包括:获取多组具有真值标注的图像‑文本数据集;利用图像编码器对数据集中的图像进行特征提取与学习,得到图像模态的特征嵌入;将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列;将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码,再进行自回归机制下的网络微调;将文本图像输入上述训练好的图像编码器与大语言模型当中,通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置,从而完成文本检测与识别任务。本发明实现方法简便,灵活鲁棒,适用范围广。

    一种基于跨模态大语言模型的场景文本检测与识别方法

    公开(公告)号:CN117851883B

    公开(公告)日:2024-08-30

    申请号:CN202410006211.X

    申请日:2024-01-03

    Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法,该方法包括:获取多组具有真值标注的图像‑文本数据集;利用图像编码器对数据集中的图像进行特征提取与学习,得到图像模态的特征嵌入;将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列;将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码,再进行自回归机制下的网络微调;将文本图像输入上述训练好的图像编码器与大语言模型当中,通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置,从而完成文本检测与识别任务。本发明实现方法简便,灵活鲁棒,适用范围广。

Patent Agency Ranking