-
公开(公告)号:CN114724144B
公开(公告)日:2024-02-09
申请号:CN202210531978.5
申请日:2022-05-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/16 , G06V30/164 , G06V10/82 , G06N3/04 , G06N3/088
Abstract: 本公开提供了文本识别方法、用于文本识别的模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待处理图像进行文本检测处理,得到目标待处理图像;对目标待处理图像进行降噪重建处理,得到目标重建图像;从目标待处理图像和目标重建图像中确定目标图像;以及对目标图像进行文本识别处理,得到识别结果。
-
公开(公告)号:CN114998906B
公开(公告)日:2023-08-08
申请号:CN202210583992.X
申请日:2022-05-25
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了文本检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待检测图像进行图像特征提取,得到全局特征图;对全局特征图进行分类,得到分类结果;基于分类结果,从多个检测模式中确定目标检测模式;以及按照目标检测模式处理全局特征图,得到待检测图像的文本检测结果。
-
公开(公告)号:CN114120305B
公开(公告)日:2023-07-07
申请号:CN202111425339.2
申请日:2021-11-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/146 , G06V30/148 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本公开提供了一种文本分类模型的训练方法、文本内容的识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别、文字识别等场景,训练方法包括:获取待训练图像集合,待训练图像集合中包括至少一个样本图像,根据每一样本图像,确定每一样本图像中每一文本行的预测位置信息和预测的属性信息,依据每一样本图像的每一文本行的标注位置信息和标注的属性信息、以及每一样本图像中每一文本行的预测位置信息和预测的属性信息,训练得到文本分类模型,文本分类模型用于检测待识别图像中每一文本行的属性信息,提高训练的准确性,使得在基于文本分类模型对文本行的属性信息进行确定时,提高分类的可靠性。
-
公开(公告)号:CN116052181A
公开(公告)日:2023-05-02
申请号:CN202211732802.2
申请日:2022-12-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146 , G06V30/14
Abstract: 本公开提供了一种图像方向的确定方法、装置、电子设备和介质,涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。实现方案为:从待识别图像中提取至少一个文本行区域,将各文本行区域旋转第一设定角度,并从旋转后的各文本行区域中提取设定个数的第一文本行区域;获取各第一文本行区域的字符识别的第一置信度;将各第一文本行区域旋转第二设定角度,并获取旋转后的各第一文本行区域的字符识别的第二置信度;根据各第一置信度和各第二置信度,确定待识别图像的方向。由此,仅根据待识别图像中的部分文本行区域,确定待识别图像的方向,而无需根据待识别图像中的所有像素点,来预测待识别图像的方向,可以提升计算速度。
-
公开(公告)号:CN115019321A
公开(公告)日:2022-09-06
申请号:CN202210800458.X
申请日:2022-07-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待识别图像进行缩放处理,得到基准尺寸的第一图像;提取所述第一图像的图像特征;根据所述图像特征确定所述第一图像中文本的最小文本高度;基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数;按照所述缩放系数对所述第一图像进行缩放处理,得到第二图像;对所述第二图像进行文本识别。应用本公开实施例搜提供的方案能够针对各种尺寸的图像进行文本识别。
-
公开(公告)号:CN114359905A
公开(公告)日:2022-04-15
申请号:CN202210013631.1
申请日:2022-01-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获得待识别图像的多维第一特征图;基于第一特征图中的各个特征值,对第一特征图中的每一特征值进行特征增强处理;基于增强处理后的第一特征图,对待识别图像进行文本识别。应用本公开实施例提供的文本识别方案,能够实现文本识别。
-
公开(公告)号:CN113657391A
公开(公告)日:2021-11-16
申请号:CN202110934328.0
申请日:2021-08-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别模型的训练方法、识别文字的方法、装置、设备、存储介质以及程序产品,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:根据多个单语种语料,确定多个第一样本图片以及所述多个第一样本图片的内容标签和语种标签;根据多个混合语种语料,确定多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签;以及根据所述多个第一样本图片、所述多个第一样本图片的内容标签和语种标签、所述多个第二样本图片以及所述多个第二样本图片的内容标签和语种标签,对文字识别模型进行训练。
-
公开(公告)号:CN116935368A
公开(公告)日:2023-10-24
申请号:CN202310706632.9
申请日:2023-06-14
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/414 , G06N3/0464 , G06N3/08
Abstract: 本公开公开了一种深度学习模型训练方法、文本行检测方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可用于光学字符识别场景。具体实现方案为:利用目标检测模型分别处理无标签样本集包括的多个第一样本图像,得到多个第一样本图像各自的伪标签,其中,目标检测模型包括利用标注样本集训练得到。利用多个第一样本图像、多个第一样本图像各自的伪标签和标注样本集训练初始模型,得到深度学习模型。
-
公开(公告)号:CN114677691B
公开(公告)日:2023-10-03
申请号:CN202210359921.1
申请日:2022-04-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。实现方案为:一种文本识别方法包括:获取待处理图像的整图场景和文本图像;确定所述整图场景对应的第一文本识别模型;以及根据所述第一文本识别模型对所述文本图像进行文本识别,得到文本信息。
-
公开(公告)号:CN115578735B
公开(公告)日:2023-09-15
申请号:CN202211205551.2
申请日:2022-09-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/18 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本检测方法和文本检测模型的训练方法、装置,涉及人工智能领域,具体涉及计算机视觉、深度学习和图像处理等技术领域,可应用于OCR等场景。文本检测方法包括:提取文本图像的图像特征;采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;根据解码特征序列,预测得到多个预测结果;每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息;以及根据关联信息和分类信息,确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果。
-
-
-
-
-
-
-
-
-