-
公开(公告)号:CN115690793B
公开(公告)日:2023-06-06
申请号:CN202310000574.8
申请日:2023-01-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别模型及其识别方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取分别包括文字信息的第一样本图片和第二样本图片,以及第二样本图片对应的样本文字标签;根据第一样本图片对特征编码网络进行自监督预训练;根据预训练好的特征编码网络、第二样本图片和相应样本文字标签,对特征解码网络进行有监督预训练;根据预训练好的特征编码网络和特征解码网络,生成文字识别模型,用于对待预测图像进行文字识别。根据本公开的技术,提高了文字识别模型的识别结果准确度。
-
公开(公告)号:CN115965075A
公开(公告)日:2023-04-14
申请号:CN202211605781.8
申请日:2022-12-14
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/084 , G06N3/08 , G06V30/148
Abstract: 本公开提供了一种文字识别模型训练方法、装置以及设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。该方法的一具体实施方式包括:获取第一有标签样本集合和无标签样本集合;利用第一有标签样本集合对第一模型进行训练,得到辅助模型;利用辅助模型对无标签样本集合进行样本筛选和标签标注,得到第二有标签样本集合;利用第一有标签样本集合和第二有标签样本集合对第二模型进行训练,得到文字识别模型,其中,第一模型的规模大于第二模型。该实施方式能够在有标签样本数量缺乏的情况下充分利用无标签样本,提升文字识别模型对手写文本图像的识别精度。
-
公开(公告)号:CN114998906A
公开(公告)日:2022-09-02
申请号:CN202210583992.X
申请日:2022-05-25
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待检测图像进行图像特征提取,得到全局特征图;对全局特征图进行分类,得到分类结果;基于分类结果,从多个检测模式中确定目标检测模式;以及按照目标检测模式处理全局特征图,得到待检测图像的文本检测结果。
-
公开(公告)号:CN114187445A
公开(公告)日:2022-03-15
申请号:CN202111436961.3
申请日:2021-11-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26 , G06V30/148 , G06V10/24 , G06V10/774 , G06V30/19 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/10
Abstract: 本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及文本识别技术领域。具体实现方案为:对输入图像进行文本分割处理,得到图像分割结果,其中,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;对第一部分文字字段区域进行文本矫正处理,得到矫正结果;对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果。
-
公开(公告)号:CN114708580B
公开(公告)日:2024-04-16
申请号:CN202210367897.6
申请日:2022-04-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/22 , G06V30/226 , G06V30/186 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08 , G06N3/048
Abstract: 本公开提供了文本识别、模型训练方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可用于OCR场景。具体实现方案为:获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1,根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。本公开提供的技术方案,针对包含任意形态字符的文本图像,均能够提高字符识别结果的准确性。
-
公开(公告)号:CN113313111B
公开(公告)日:2024-02-13
申请号:CN202110594748.9
申请日:2021-05-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/413
Abstract: 本公开提供了一种文本识别方法、装置、设备和介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可应用于OCR场景下。该文本识别方法包括:获取待检测图像;将待检测图像输入训练好的文本检测网络模型,获取文本检测网络模型输出的一个或多个检测框,一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本;以及对待检测图像中的位于一个或多个检测框内的目标文本进行识别。
-
公开(公告)号:CN114998881B
公开(公告)日:2023-11-07
申请号:CN202210596310.9
申请日:2022-05-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/19 , G06V30/246 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取样本图像,其中,样本图像设置有标签,标签指示样本图像中的文本信息以及文本信息的语种信息;将样本图像输入到深度学习模型,得到针对多个解码分支的文本识别结果,其中,多个解码分支与多个语种各自对应;根据标签指示的语种信息,从多个解码分支的文本识别结果中确定目标文本识别结果;以及根据标签指示的文本信息与目标文本识别结果之间的差异,调整深度学习模型的参数。本公开还提供了一种文本识别方法、装置、电子设备和存储介质。
-
公开(公告)号:CN114359905B
公开(公告)日:2023-05-26
申请号:CN202210013631.1
申请日:2022-01-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获得待识别图像的多维第一特征图;基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理;基于增强处理后的第一特征图,对待识别图像进行文本识别。应用本公开实施例提供的文本识别方案,能够实现文本识别。
-
公开(公告)号:CN114708580A
公开(公告)日:2022-07-05
申请号:CN202210367897.6
申请日:2022-04-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/22 , G06V30/226 , G06V30/186 , G06V30/19 , G06V10/82 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本公开提供了文本识别、模型训练方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可用于OCR场景。具体实现方案为:获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1,根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。本公开提供的技术方案,针对包含任意形态字符的文本图像,均能够提高字符识别结果的准确性。
-
公开(公告)号:CN113642583B
公开(公告)日:2022-06-28
申请号:CN202110932789.4
申请日:2021-08-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V10/26 , G06V10/22 , G06K9/62 , G06V10/774
Abstract: 本公开提供了用于文本检测的深度学习模型训练方法及文本检测方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。给出了用于文本检测的深度学习模型训练方法,单字符分割子网络输出的单字符分割预测结果,文本行分割子网络输出的文本行分割预测结果,训练后的深度学习模型可以用于文本区域的检测;并且可以同时实现单字符分割及文本行分割的预测,从而能够结合两种文本分割方式来进行文本检测,能够进一步提高文本区域检测的准确性。
-
-
-
-
-
-
-
-
-