文字识别模型训练及其识别方法、装置、设备和介质

    公开(公告)号:CN116012650B

    公开(公告)日:2024-04-23

    申请号:CN202310002789.3

    申请日:2023-01-03

    摘要: 本公开提供了文字识别模型训练及其识别方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取分别包括文字信息的第一样本图片和第二样本图片,以及第二样本图片对应的样本文字标签;根据第一样本图片对特征提取网络进行自监督预训练,以及,根据第二样本图片和相应样本文字标签,对特征提取网络进行有监督预训练;根据预训练好的特征提取网络,生成文字识别模型,用于对待预测图像进行文字识别。根据本公开的技术,提高了文字识别模型的识别结果准确度。

    识别文字的方法和装置
    53.
    发明授权

    公开(公告)号:CN111860506B

    公开(公告)日:2024-03-29

    申请号:CN202010721524.5

    申请日:2020-07-24

    摘要: 本申请公开了一种识别文字的方法和装置,涉及人工智能技术领域、计算机视觉技术领域、知识图谱技术领域和自然语言处理技术领域。方法包括:获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;从文字中心线图中提取字符中心的特征点的坐标;基于文字方向偏移图,排序字符中心的特征点的坐标,得到字符中心的特征点的坐标序列;根据字符中心的特征点的坐标序列和文字边界偏移图,确定文字区域的多边形包围框;根据字符中心的特征点的坐标序列和文字字符分类图,确定字符中心的特征点的分类结果。该方法可以对输入图像中任意方向的文字进行识别,提高了文字的识别效率和准确率。

    文本识别方法、视觉特征提取模型的训练方法及装置

    公开(公告)号:CN113657395B

    公开(公告)日:2024-02-13

    申请号:CN202110944388.0

    申请日:2021-08-17

    摘要: 本公开提供了一种文本识别方法、视觉特征提取模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景,包括:获取待识别图像中待识别文本分别对应的先验特征和视觉特征,先验特征是基于待识别图像的先验知识确定的,对先验特征和视觉特征进行融合处理,得到融合特征,对融合特征进行编码处理得到编码特征,对编码特征进行解码处理,得到与待识别文本对应的文本内容,使得文本识别过程不再为孤立和片面的过程,而具有全面性和完整性,以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、用于确定视觉特征的信息)确定文本内容,以提高文本识别的可靠性、准确性、及精度。

    文本识别方法、装置及电子设备

    公开(公告)号:CN112560862B

    公开(公告)日:2024-02-13

    申请号:CN202011495211.9

    申请日:2020-12-17

    摘要: 本申请公开了文本识别方法、装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取包括文本信息的图像,所述文本信息包括M个字符,M为大于1的正整数;对所述图像进行文本识别,得到所述M个字符的字符信息;基于所述M个字符的字符信息,识别每个字符的阅读指向信息,所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符;基于所述M个字符的阅读指向信息对所述M个字符进行排序,得到所述文本信息的文本识别结果。根据本申请的技术,解决了OCR技术中存在的文本识别效果比较差的问题,提高了图像中文本的识别效果。

    文字检测和模型训练方法、装置、设备及存储介质

    公开(公告)号:CN114724133B

    公开(公告)日:2024-02-02

    申请号:CN202210404529.4

    申请日:2022-04-18

    摘要: 中的文字以文本实例为单元进行检测得到检测本公开提供了一种文字检测和模型训练方 结果,文字检测的准确性较高。法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取训练样本,训练样本中包括样本图像和标签图像,标签图像为对所述样本图像上的文本实例进行标注得到的图像;将样本图像输入至文字检测模型,得到文字检测模型输出的分割图像和分割图像的图像类别,其中,图像类别指(56)对比文件CN 112634292 A,2021.04.09CN 105741294 A,2016.07.06CN 113887394 A,2022.01.04陈志毅等.基于deepFM和卷积神经网络的集成式多模态谣言检测方法.计算机科学.2022,第49卷(第1期),101-107.H. T. Basavaraju等.Arbitrary orientedmultilingual text detection andsegmentation using level set and Gaussianmixture model.EvolutionaryIntelligence.2021,881–894.胥杏培;宋余庆;陆虎.一种结合深度学习特征和社团划分的图像分割方法.小型微型计算机系统.2018,(11),2533-2537.梁礼明;黄朝林;石霏;吴健;江弘九;陈新建.融合形状先验的水平集眼底图像血管分割.计算机学报.2016,(07),1678-1692.

    文本内容的识别方法、装置及电子设备

    公开(公告)号:CN111539438B

    公开(公告)日:2024-01-12

    申请号:CN202010349150.9

    申请日:2020-04-28

    IPC分类号: G06V30/148 G06V30/14

    摘要: 本申请公开了一种文本内容的识别方法、装置及电子设备,涉及计算机技术领域中的文本识别技术。具体实现方案为:获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。

    用于处理图像的方法、装置、设备以及存储介质

    公开(公告)号:CN111723769B

    公开(公告)日:2023-10-27

    申请号:CN202010613379.9

    申请日:2020-06-30

    发明人: 章成全 何斌

    摘要: 本申请公开了一种用于处理图像的方法、装置、设备以及存储介质,涉及人工智能深度学习、计算机视觉、大数据领域。具体实现方案为:获取目标视频,目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧;根据至少一个图像帧中已标注目标对象,确定目标图像帧中针对目标对象的搜索区域;根据搜索区域,确定目标对象的中心位置信息;根据至少一个图像帧的标注区域以及中心位置信息,确定目标对象区域;根据目标对象区域,分割目标图像帧。本实现方式可以鲁棒地定位目标对象并提供精细的目标分割结果。

    表格结构识别及模型训练方法、装置、设备和介质

    公开(公告)号:CN116884025A

    公开(公告)日:2023-10-13

    申请号:CN202310708376.7

    申请日:2023-06-14

    摘要: 本公开提供了一种表格结构识别及模型训练方法、装置、设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧金融等场景。表格结构识别方法包括:获取表格图像的目标图像特征;基于所述目标图像特征,确定所述表格中表格分割线的参考位置;对所述参考位置对应的参考特征,以及所述表格分割线上候选点的查询特征进行融合处理,以获取融合特征;对所述融合特征进行解码处理,以获取所述候选点的结构信息;基于所述候选点的结构信息,确定所述表格中单元格的结构信息。本公开可以提升表格结构识别效果。