发明授权
- 专利标题: 一种面向文献的表格信息抽取方法
-
申请号: CN202110736883.2申请日: 2021-06-30
-
公开(公告)号: CN113609906B公开(公告)日: 2024-06-21
- 发明人: 胡祥奔 , 江结林 , 胡志臣 , 许小龙
- 申请人: 南京信息工程大学
- 申请人地址: 江苏省南京市江北新区宁六路219号
- 专利权人: 南京信息工程大学
- 当前专利权人: 南京信息工程大学
- 当前专利权人地址: 江苏省南京市江北新区宁六路219号
- 代理机构: 南京经纬专利商标代理有限公司
- 代理商 曹芸
- 主分类号: G06V30/413
- IPC分类号: G06V30/413 ; G06V30/19 ; G06V10/82
摘要:
本发明涉及一种面向文献的表格信息抽取方法,属于数据处理以及计算机视觉领域。该方法包括以下步骤:1:利用规则获取所有可能含表格的候选页面;2:将获取的页面转化为图片文件;3:采用深度学习方法,获取图片文件的特征;4:根据获取的图片文件的特征,对图片进行特征融合;获取融合后的特征;5:根据获取的特征融合后的特征,对表格的位置进行初步定位;6:针对获得的表格定位信息,根据表格元素的长宽关系,将横板表格旋转为竖版表格;7:根据获得的竖版表格,读取单元格字符流。本发明能自动对表格位置进行准确的定位,能够精确的从表格中读取表格的字符流。
公开/授权文献
- CN113609906A 一种面向文献的表格信息抽取方法 公开/授权日:2021-11-05