一种基于图像处理的表格图片内容提取方法

    公开(公告)号:CN116386069A

    公开(公告)日:2023-07-04

    申请号:CN202310233931.5

    申请日:2023-03-11

    Inventor: 唐怀路 盛宇波

    Abstract: 本发明一种基于图像处理的表格图片内容提取方法,包括以下具体步骤:对表格结构进行识别;对表格文字进行检测;对表格文字进行识别。针对表格数据特点,本专利提出多阶段的表格内容提取算法,将表格内容提取问题抽象为表格结构识别、文字检测和文字识别三个子问题,由特定算法解决特定问题,便于调试与改进。表格结构识别算法的模型训练使用实际表格数据,对无线表格和少线表格显示出了较强的识别性能;文字检测算法使用表格图像的数据进行训练,针对表格文字区域小、排列密集特点,对检测算法先验框的参数进行工程化优化;文字识别算法使用预定词典提高了文字识别的精度。

Patent Agency Ranking