一种融合GPT2预训练大模型的光学字符识别方法

    公开(公告)号:CN116071759A

    公开(公告)日:2023-05-05

    申请号:CN202310202217.X

    申请日:2023-03-06

    发明人: 刘学亮 汪萌

    摘要: 本发明涉及计算机视觉技术领域,公开了一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;光学字符识别模型的训练方法包括:对文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集;抽取文本图像的特征矢量:将特征矢量输入到基于预训练的GPT‑2模型的文本解码模块,预测生成相应的文本;将GPT‑2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,再对光学字符识别模型的参数进行微调;本发明能够利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。

    一种基于自监督学习模型的文档图像内容比对方法

    公开(公告)号:CN115861663A

    公开(公告)日:2023-03-28

    申请号:CN202310185709.2

    申请日:2023-03-01

    发明人: 刘学亮 汪萌

    摘要: 本发明涉及计算机视觉技术领域,公开了一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度,当余弦相似度小于设定的阈值时,则认为电子文档位置i处的内容被篡改。本发明不需要检测图像中每个字符的具体内容完成比对,能够提高比对的效率。

    一种融合GPT2预训练大模型的光学字符识别方法

    公开(公告)号:CN116071759B

    公开(公告)日:2023-07-18

    申请号:CN202310202217.X

    申请日:2023-03-06

    发明人: 刘学亮 汪萌

    摘要: 本发明涉及计算机视觉技术领域,公开了一种融合GPT2预训练大模型的光学字符识别方法,将待识别的文本图像输入到光学字符识别模型,得到与文本图像对应的文本;光学字符识别模型的训练方法包括:对文本数据进行预处理后,将文本转化为文本图像,对文本图像进行数据增广,得到文本图像数据集;抽取文本图像的特征矢量:将特征矢量输入到基于预训练的GPT‑2模型的文本解码模块,预测生成相应的文本;将GPT‑2模型的参数冻结,利用CTC损失函数优化文本图像编码模块的参数,再对光学字符识别模型的参数进行微调;本发明能够利用GPT2模型对于文本字符关系的建模能力提高OCR识别的准确率。