-
公开(公告)号:CN116386069A
公开(公告)日:2023-07-04
申请号:CN202310233931.5
申请日:2023-03-11
Applicant: 南京邮电大学
IPC: G06V30/412 , G06V30/18 , G06V30/148 , G06V10/82 , G06V30/19 , G06V10/766 , G06N3/0464 , G06N3/042 , G06N3/044 , G06N3/045
Abstract: 本发明一种基于图像处理的表格图片内容提取方法,包括以下具体步骤:对表格结构进行识别;对表格文字进行检测;对表格文字进行识别。针对表格数据特点,本专利提出多阶段的表格内容提取算法,将表格内容提取问题抽象为表格结构识别、文字检测和文字识别三个子问题,由特定算法解决特定问题,便于调试与改进。表格结构识别算法的模型训练使用实际表格数据,对无线表格和少线表格显示出了较强的识别性能;文字检测算法使用表格图像的数据进行训练,针对表格文字区域小、排列密集特点,对检测算法先验框的参数进行工程化优化;文字识别算法使用预定词典提高了文字识别的精度。