-
公开(公告)号:CN111860257B
公开(公告)日:2022-11-11
申请号:CN202010663170.3
申请日:2020-07-10
Applicant: 上海交通大学
IPC: G06V30/412 , G06V30/413 , G06V20/62 , G06V10/82 , G06V30/10
Abstract: 本发明提供了一种融合多种文本特征及几何信息的表格识别方法,包括:数据处理步骤:获取表格区域的图片,分别对获取的图片进行OCR识别与直线识别,获得关键特征信息;图卷积神经网络训练步骤:根据获得的关键特征信息,进行图卷积神经网络训练,构建表格结构识别模型;表格识别步骤:根据构建的表格结构识别模型,对图片格式的表格进行结构识别。本发明提出了一种融合多种文本特征及几何信息的表格识别方法,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果,相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。
-
公开(公告)号:CN111860257A
公开(公告)日:2020-10-30
申请号:CN202010663170.3
申请日:2020-07-10
Applicant: 上海交通大学
Abstract: 本发明提供了一种融合多种文本特征及几何信息的表格识别方法,包括:数据处理步骤:获取表格区域的图片,分别对获取的图片进行OCR识别与直线识别,获得关键特征信息;图卷积神经网络训练步骤:根据获得的关键特征信息,进行图卷积神经网络训练,构建表格结构识别模型;表格识别步骤:根据构建的表格结构识别模型,对图片格式的表格进行结构识别。本发明提出了一种融合多种文本特征及几何信息的表格识别方法,从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进,有效提升了表格识别的准确率,获得了更加准确的表格结构重建结果,相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。
-