发明公开
- 专利标题: 文本版面分析方法、装置、电子设备及存储介质
-
申请号: CN202211652196.3申请日: 2022-12-21
-
公开(公告)号: CN115841677A公开(公告)日: 2023-03-24
- 发明人: 杨沛灵 , 闫印强 , 姚兴仁 , 姜海昆 , 范宇
- 申请人: 长扬科技(北京)股份有限公司
- 申请人地址: 北京市海淀区闵庄路3号104幢1层01室
- 专利权人: 长扬科技(北京)股份有限公司
- 当前专利权人: 长扬科技(北京)股份有限公司
- 当前专利权人地址: 北京市海淀区闵庄路3号104幢1层01室
- 代理机构: 北京格允知识产权代理有限公司
- 代理商 王文雅
- 主分类号: G06V30/41
- IPC分类号: G06V30/41 ; G06V30/14 ; G06V10/82
摘要:
本发明提供了一种文本版面分析方法、装置、电子设备及存储介质,其中方法包括:基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。本方案,能够提高文本版面中分析结果的准确性。
公开/授权文献
- CN115841677B 文本版面分析方法、装置、电子设备及存储介质 公开/授权日:2023-09-05