-
公开(公告)号:CN114708580B
公开(公告)日:2024-04-16
申请号:CN202210367897.6
申请日:2022-04-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/22 , G06V30/226 , G06V30/186 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08 , G06N3/048
Abstract: 本公开提供了文本识别、模型训练方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可用于OCR场景。具体实现方案为:获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1,根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。本公开提供的技术方案,针对包含任意形态字符的文本图像,均能够提高字符识别结果的准确性。
-
公开(公告)号:CN113903036B
公开(公告)日:2023-11-03
申请号:CN202111329026.7
申请日:2021-11-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、装置、电子设备、介质及产品,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于文字识别技术领域。具体实现方案为:获取待识别图片,然后基于待识别图片的长度确定滑窗,并利用滑窗对待识别图片进行裁剪,得到多个子图片,其中滑窗的宽度为待识别图片的宽度,滑窗的长度为指定长度,相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型,得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果,确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。
-
公开(公告)号:CN115171110B
公开(公告)日:2023-08-22
申请号:CN202210776958.4
申请日:2022-06-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法及装置、设备、介质和产品,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案包括:确定图像序列中的第一文本图像的待识别文本行;对待识别文本行进行切分,得到候选文本片区;根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区,确定候选文本片区中的第二有效文本片区;以及对第二有效文本片区进行识别,得到第一文本图像的文本识别结果。
-
公开(公告)号:CN114842474A
公开(公告)日:2022-08-02
申请号:CN202210503483.1
申请日:2022-05-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及文本识别技术领域。实现方案为:在第一图像中获取包含待识别的文本行的第一区域;对第一区域进行单字检测,以确定文本行中的每一个单字对应的第一位置信息;基于第一位置信息,确定每一个单字对应的类别;基于类别,确定第一区域中的块区域以及块区域对应的第二位置信息;基于块区域以及对应的第二位置信息,生成第二图像;以及对第二图像进行文字识别。
-
公开(公告)号:CN114708580A
公开(公告)日:2022-07-05
申请号:CN202210367897.6
申请日:2022-04-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/22 , G06V30/226 , G06V30/186 , G06V30/19 , G06V10/82 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本公开提供了文本识别、模型训练方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可用于OCR场景。具体实现方案为:获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1,根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。本公开提供的技术方案,针对包含任意形态字符的文本图像,均能够提高字符识别结果的准确性。
-
公开(公告)号:CN114494686A
公开(公告)日:2022-05-13
申请号:CN202210110162.5
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本图像矫正方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:从待矫正文本图像的待矫正文本区域的边界中确定至少一个第一备选控制点序列;根据至少一个第一备选控制点序列包括的多个第一备选控制点各自的位置信息和与待矫正文本图像对应的预期文本图像的预期控制点序列包括的多个预期控制点各自的位置信息,得到至少一个备选矫正文本图像的备选矫正文本图像数据;根据对至少一个备选矫正文本图像的备选矫正文本图像数据进行评估得到的评估结果,从至少一个备选矫正文本图像中确定目标矫正文本图像。
-
公开(公告)号:CN114492733A
公开(公告)日:2022-05-13
申请号:CN202111647444.0
申请日:2021-12-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本检测方法、装置、设备及存储介质,涉及计算机技术领域,尤其涉及光学字符识别(OCR,Optical Character Recognition)领域。具体实现方案为:获取待检测图像;对所述待检测图像进行特征提取,得到第一特征图;根据所述待检测图像和所述第一特征图得到主体检测结果;对所述第一特征图进行光学字符识别OCR处理,得到文字检测结果,所述文字检测结果包括所述待检测图像中每一文本行的坐标;根据所述主体检测结果和所述文字检测结果,确定所述待检测图像的文本中心行坐标。本公开通过主体检测与文字检测相结合的检测方法,可以提高文本中心行的检测精度。
-
公开(公告)号:CN114419636A
公开(公告)日:2022-04-29
申请号:CN202210023777.4
申请日:2022-01-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了文本识别方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取第一图像,所述第一图像中包括N种类型的字符;在第一图像中确定出多个子图像,并确定各子图像的字符类型,每个子图像中包括一种类型的字符;针对每个子图像,通过所述字符类型对应的字符识别模型对所述子图像进行字符识别处理,得到所述子图像对应的字符集合,所述字符集合中包括至少一个字符;根据所述多个子图像各自对应的字符集合,确定所述第一图像对应的文本信息。本公开方案能够提高文本识别结果的准确性。
-
公开(公告)号:CN113903036A
公开(公告)日:2022-01-07
申请号:CN202111329026.7
申请日:2021-11-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、装置、电子设备、介质及产品,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于文字识别技术领域。具体实现方案为:获取待识别图片,然后基于待识别图片的长度确定滑窗,并利用滑窗对待识别图片进行裁剪,得到多个子图片,其中滑窗的宽度为待识别图片的宽度,滑窗的长度为指定长度,相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型,得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果,确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。
-
公开(公告)号:CN113642584B
公开(公告)日:2023-11-28
申请号:CN202110934110.5
申请日:2021-08-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148
Abstract: 本公开公开了一种文字识别方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取针对文档连续扫描得到的多个图像序列;基于多个图像序列进行图像拼接,得到对应的多个连续拼接图像帧,其中,两两连续拼接图像帧之间存在重叠区域;基于多个连续拼接图像帧进行文字识别,得到对应的多个识别结果;以及基于多个连续拼接图像帧中两两连续拼接图像帧间的重叠区域,对多个识别结果进行去重处理,得到针对文档的文字识别结果。
-
-
-
-
-
-
-
-
-