文本提取方法、模型训练方法计算机设备及存储介质

    公开(公告)号:CN115512366A

    公开(公告)日:2022-12-23

    申请号:CN202211020224.X

    申请日:2022-08-24

    Abstract: 本申请实施例提供了一种文本提取方法、模型训练方法计算机设备及存储介质,该方法包括:获取目标图像,所述目标图像至少包括字符区域;对所述目标图像进行文本识别,得到若干文本行,各所述文本行包括若干字符;基于文本分类模型,识别各所述文本行的段落类型;根据各所述文本行的段落类型,对所述若干文本行进行拼接,得到目标文本,所述目标文本包括若干文本段落。通过识别各文本行的段落类型,根据各文本行的段落类型,可以将文本识别得到的文本行拼接成包含语义段落信息的自然段,更符合用户的阅读习惯。

Patent Agency Ranking