-
公开(公告)号:CN115690793B
公开(公告)日:2023-06-06
申请号:CN202310000574.8
申请日:2023-01-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别模型及其识别方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取分别包括文字信息的第一样本图片和第二样本图片,以及第二样本图片对应的样本文字标签;根据第一样本图片对特征编码网络进行自监督预训练;根据预训练好的特征编码网络、第二样本图片和相应样本文字标签,对特征解码网络进行有监督预训练;根据预训练好的特征编码网络和特征解码网络,生成文字识别模型,用于对待预测图像进行文字识别。根据本公开的技术,提高了文字识别模型的识别结果准确度。
-
公开(公告)号:CN116189198A
公开(公告)日:2023-05-30
申请号:CN202310019561.5
申请日:2023-01-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/41 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/088 , G06N3/0895
Abstract: 本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一训练数据;将第一训练数据输入待训练的目标模型;获取目标模型基于第一训练数据输出的预测文本和预测掩码特征;基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征,训练目标模型,得到文本识别模型。根据本公开的方案,能够提高文本识别的准确性。
-
公开(公告)号:CN114359932B
公开(公告)日:2023-05-23
申请号:CN202210028960.3
申请日:2022-01-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本检测方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景,文本检测方法为:获取待识别图像中文本条的图像特征,对待识别图像进行视觉增强处理,得到待识别图像的增强特征图,对文本条的图像特征与增强特征图进行相似性比对,得到在增强特征图上的文本条的目标包围盒。增强特征图从更多的维度对待识别图像的特征进行表征,使得确定出的包围盒具有较高的准确性和可靠性,且通过从文本条的包围盒和增强特征图的相似性比对确定文本条的包围盒,可以避免包围盒与文本条之间不匹配,使得包围盒具有较强的可靠性。
-
公开(公告)号:CN116071758A
公开(公告)日:2023-05-05
申请号:CN202310118570.X
申请日:2023-01-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/10 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/0464 , G06N3/0442
Abstract: 本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:根据目标公式图像中目标符号的目标语义特征,确定所述目标符号的目标注意力权重;根据所述目标语义特征和所述目标注意力权重,确定所述目标符号的识别结果;根据所述识别结果、所述目标注意力权重和所述目标符号的标签数据,对公式识别模型进行训练。通过上述技术方案,可以提高公式识别的准确性。
-
公开(公告)号:CN115984838A
公开(公告)日:2023-04-18
申请号:CN202211216873.7
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种POI名称的生成方法、装置、电子设备和存储介质,该方法包括:获取待处理图像;将所述待处理图像输入至预设POI生成模型,以输出N维度的POI关联信息;其中,N≥2且取整数;基于N维度的所述POI关联信息,生成所述待处理图像中的POI名称。本公开中预设文字方向检测、识别内容、语义分类在同一个模型中端到端训练,减少中间步骤带来的累积误差,提升POI名称获取模型的精度,进一步提升检测、识别、分类的准确度;且该端到端的模型可以适配到预设文字方向检测、预设文字方向识别、文本语义分类多个任务上,无需引入多个模型,有效简化了从图像中提取POI名称的处理流程,提高整体的处理效率。
-
公开(公告)号:CN115965075A
公开(公告)日:2023-04-14
申请号:CN202211605781.8
申请日:2022-12-14
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/084 , G06N3/08 , G06V30/148
Abstract: 本公开提供了一种文字识别模型训练方法、装置以及设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。该方法的一具体实施方式包括:获取第一有标签样本集合和无标签样本集合;利用第一有标签样本集合对第一模型进行训练,得到辅助模型;利用辅助模型对无标签样本集合进行样本筛选和标签标注,得到第二有标签样本集合;利用第一有标签样本集合和第二有标签样本集合对第二模型进行训练,得到文字识别模型,其中,第一模型的规模大于第二模型。该实施方式能够在有标签样本数量缺乏的情况下充分利用无标签样本,提升文字识别模型对手写文本图像的识别精度。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN114495103B
公开(公告)日:2023-04-04
申请号:CN202210107770.0
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V10/22 , G06V10/764 , G06V10/82
Abstract: 本公开提供了一种文本识别方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。实现方案为:对待检测图像进行目标检测,获取至少一个检测框;获取待检测图像位于至少一个检测框内的部分的像素值;对位于至少一个检测框中任意一个检测框内的目标文本进行识别,以获得文本识别结果和与文本识别结果相对应的置信度;响应于置信度小于第一阈值,确定与该置信度相对应的文本识别结果为模糊,并确定模糊检测框;基于待检测图像位于模糊检测框内的部分的像素值与第二阈值的比较,确定待检测图像位于模糊检测框内的部分的图像缺陷种类。
-
公开(公告)号:CN114639107B
公开(公告)日:2023-03-24
申请号:CN202210427478.7
申请日:2022-04-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V10/44
Abstract: 本公开提供了一种表格图像处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对表格图像进行处理时,获取表格图像中各个文本框的第一文本信息以及第一位置信息,并确定表格图像中待识别单元格图像的第二位置信息,以及从第一位置信息中,获取与第二位置信息匹配的第三位置信息,并将第三位置信息所对应文本框中的第二文本信息作为待识别单元格图像中的文本内容。由此,基于表格图像中文本框的文本信息以及位置信息,方便地确定出表格图像中待识别单元格图像中的文本内容,降低了表格图像处理的复杂度,提高了表格图像处理的准确度。
-
公开(公告)号:CN115620321A
公开(公告)日:2023-01-17
申请号:CN202211291218.8
申请日:2022-10-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18
Abstract: 本公开公开了一种表格识别方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、大模型、计算机视觉技术领域,可应用于OCR(文字识别技术)等场景。具体为:对表格图像进行特征提取,得到图像特征;将预先定义好的行号及列号转化为目标向量,将目标向量作为对应行或列的请求特征;编码各行的请求特征与图像特征,得到各行对应的行特征,编码各列的请求特征与图像特征,得到各列对应的列特征;依据行特征及列特征确定表格图像中的行分割线及列分割线;依据行特征及列特征确定角点特征,依据角点特征合并单元格,得到表格识别结果。本公开可以对对比度较弱、图像明暗分布不均、背景模糊的表格进行精确识别。
-
-
-
-
-
-
-
-
-