文档识别方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN119206758A

    公开(公告)日:2024-12-27

    申请号:CN202411467104.3

    申请日:2024-10-21

    Abstract: 本申请公开了一种文档识别方法、装置、相关设备及计算机程序产品,对于待识别文本可以拆分为多页文档图像,并分别提取每页文档图像的视觉特征,可以将多页文档图像的视觉特征同时送入大模型,同时提取第一文档识别指令的文本特征也送入大模型,所述第一文档识别指令用于指示大模型输出文档图像的文档识别结果,如此能够通过大模型端到端地输出多页文档的识别结果。由于大模型具有更强的建模能力,同时将多页文档图像的视觉特征送入大模型,可以保留不同页文档图像之间的上下文信息,进而能够理解文本的上下文语义,更精确地分析文档的层次结构和内容关系,从而提高文本识别和版面理解的准确性,提升多页文档的识别结果准确度。

    表格识别方法及相关装置
    3.
    发明公开

    公开(公告)号:CN119992578A

    公开(公告)日:2025-05-13

    申请号:CN202510056895.9

    申请日:2025-01-14

    Abstract: 本申请提出一种表格识别方法及相关装置,涉及图像识别技术领域。该表格识别方法可以包括:提取表格图像的视觉特征;其中,所述视觉特征包括:表格行特征和表格列特征;基于所述表格行特征确定行线关键点,以及基于所述表格列特征确定列线关键点;基于所述行线关键点预测行分割线,以及基于所述列线关键点预测列分割线;基于预测得到的所述行分割线与所述列分割线,生成结构化表格。本申请提供的技术方案用于解决现有技术中表格识别准确性低的问题。

    错字识别方法、装置、设备和存储介质

    公开(公告)号:CN119649378A

    公开(公告)日:2025-03-18

    申请号:CN202411674214.7

    申请日:2024-11-21

    Abstract: 本申请公开了一种错字识别方法、装置、设备和存储介质,该方法包括:获取待识别文字的第一笔画序列、以及待识别文字对应的正确文字的第二笔画序列;对第一笔画序列和第二笔画序列进行笔画匹配,分别确定待识别文字中未成功匹配的第一差异笔画和正确文字中未成功匹配的第二差异笔画;利用错字识别模型基于第一差异笔画和第二差异笔画进行错字识别,确定待识别文字的目标识别结果,目标识别结果用于表征待识别文字是否为错字。通过上述方式,本申请能够提高错字识别的准确度。

    一种文档信息结构化抽取方法、装置、存储介质及设备

    公开(公告)号:CN119763139A

    公开(公告)日:2025-04-04

    申请号:CN202411891668.X

    申请日:2024-12-20

    Abstract: 本申请公开了一种文档信息结构化抽取方法、装置、存储介质及设备,该方法包括:首先获取目标文档所在的目标图像;并提取目标图像的目标视觉特征;然后将目标视觉特征输入语义信息提取模型进行OCR信息提取,得到目标OCR信息,并对其进行编码处理,得到目标语义编码向量;接着将目标视觉特征和目标语义编码向量输入预先构建的多模态大语言模型,预测得到目标文档对应的信息结构化抽取结果。可见,由于本申请采用的是结合OCR信息与多模态大语言模型的通用信息结构化抽取方法,并采用了视觉特征和OCR信息分别作为空间和文本语义上的抽取依据,解决了通过纯文本进行结构化抽取时的空间信息匮乏问题,从而能够有效提高文档信息结构化抽取的准确率。

Patent Agency Ranking