一种文档识别方法及装置
    1.
    发明公开

    公开(公告)号:CN116304261A

    公开(公告)日:2023-06-23

    申请号:CN202211536585.X

    申请日:2022-12-02

    Abstract: 本发明提供了一种文档识别方法及装置,其中,该方法包括:获取待识别文档的图像数据;根据图像数据识别待识别文档中各行文字的文本框和待识别文档的文字识别结果;根据各文本框在图像数据中的位置信息将待识别文档的文字识别结果划分为多个文本块;根据各文本框的高度在图像数据中的高度占比从文字识别结果中确定待识别文档的标题和正文;按照待识别文档的各文本块、标题、正文对文字识别结果进行结构化合并,并将结构化合并后的文字识别结果进行存储。实施本发明不需要人工即可完成对文档的管理,提高了效率,并且,将文字识别结果进行结构化合并后,更便于存储以及后续查询维护。

Patent Agency Ranking