文本版面分析方法、装置、电子设备及存储介质
摘要:
本发明提供了一种文本版面分析方法、装置、电子设备及存储介质,其中方法包括:基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。本方案,能够提高文本版面中分析结果的准确性。
0/0