-
公开(公告)号:CN113255664B
公开(公告)日:2023-10-20
申请号:CN202110576183.1
申请日:2021-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146
Abstract: 本公开提供了图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机视觉和深度学习等人工智能技术领域,可应用于图像识别场景下。该方法的一具体实施方式包括:确定待处理图像在不同分辨率下构成待矫正对象的像素点的三维坐标,得到三维预测坐标后,根据该三维预测坐标确定该待矫正对象的表面扭曲参数,最终根据该三维预测坐标和该表面扭曲参数生成该待矫正对象的平面图像。该实施方式基于不同分辨率的待处理图像进行三维坐标预测,以更精准的确定待矫正对象的表面扭曲参数,实现更为精准的图像扭曲矫正,提升图像识别、矫正结果的质量。
-
公开(公告)号:CN116843963A
公开(公告)日:2023-10-03
申请号:CN202310781222.0
申请日:2023-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/80 , G06V10/44 , G06V10/82 , G06N3/045
Abstract: 本公开提供一种图像识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧城市的场景下。具体实现方案包括:对目标图像进行向量化,得到至少两个第一特征向量;对第一特征向量按照自注意力网络模型中编码模块的序列和第一融合规则,依次通过每个编码模块进行编码,得到第二特征向量;编码模块包括至少两个,第一融合规则包括:在至少一组相邻的两个编码模块之间对前一个编码模块编码得到的特征向量进行融合,融合后的特征向量数量小于前一个编码模块编码得到的特征向量数量,根据第二特征向量确定目标图像的识别结果。本公开可以显著减少图像识别过程对计算资源的耗费。
-
公开(公告)号:CN116824609A
公开(公告)日:2023-09-29
申请号:CN202310791204.0
申请日:2023-06-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19 , G06V10/82
Abstract: 本公开提供了一种文档版式检测方法、装置和电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于智慧政务等场景。实现方案为:获取待检测文档的图像;提取图像的多个尺度的特征图;基于多个尺度的特征图,执行全局注意力编码操作;基于全局注意力编码操作的结果,针对每个尺度的特征图生成用于指示至少一个特征点中的每个特征点的候选检测框,以获得与多个尺度的特征图有关的多个候选检测框;基于多个候选检测框中达到预定置信度的候选检测框,确定用于执行全局注意力解码操作的查询特征并执行全局注意力解码操作;以及基于全局注意力解码操作的结果,确定待检测文档中包括的至少一种版式的类别。
-
公开(公告)号:CN116645685A
公开(公告)日:2023-08-25
申请号:CN202310369035.1
申请日:2023-04-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了一种表格识别方法、表格识别模型的训练方法、装置及设备,涉及人工智能技术领域,具体为计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:根据预设的总行数和总列数对待识别表格图像的表格尺寸进行扩充,得到扩充后的目标表格图像;所述总行数和所述总列数均为固定值;对所述目标表格图像进行表格识别,得到目标表格图像的表格属性信息;所述表格属性信息包括行的有效性信息、列的有效性信息、表格顶点的坐标和相邻表格顶点之间的连接性;根据所述目标表格图像的表格属性信息进行表格重构,得到所述待识别表格图像中的单元格信息。通过上述技术方案能够提高表格识别的准确性。
-
公开(公告)号:CN113052156B
公开(公告)日:2023-08-04
申请号:CN202110270866.4
申请日:2021-03-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/14 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开公开了光学字符识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。具体实现方案为:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。本公开的光学字符识别方法、装置、电子设备和存储介质,可以提高光学字符识别场景下公式的识别效果,较好的解决图片场景公式的识别问题。
-
公开(公告)号:CN116486413A
公开(公告)日:2023-07-25
申请号:CN202310348278.7
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148
Abstract: 本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于光学文字识别、智慧城市等场景,具体涉及一种标签处理方法、装置、电子设备及存储介质。具体实现方案为:获取对商品标签中的多个文本行检测区域进行识别,获得的多个文本识别结果,每个文本识别结果对应一个文本行检测区域;通过数值匹配方式,对多个文本识别结果进行处理,获得商品标签中的标签信息。采用本公开可以有效应对实际业务场景中多样化的标签版式分布情况,从而提高标签处理方法的可用性。
-
公开(公告)号:CN115620321B
公开(公告)日:2023-06-23
申请号:CN202211291218.8
申请日:2022-10-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18
Abstract: 本公开公开了一种表格识别方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、大模型、计算机视觉技术领域,可应用于OCR(文字识别技术)等场景。具体为:对表格图像进行特征提取,得到图像特征;将预先定义好的行号及列号转化为目标向量,将目标向量作为对应行或列的请求特征;编码各行的请求特征与图像特征,得到各行对应的行特征,编码各列的请求特征与图像特征,得到各列对应的列特征;依据行特征及列特征确定表格图像中的行分割线及列分割线;依据行特征及列特征确定角点特征,依据角点特征合并单元格,得到表格识别结果。本公开可以对对比度较弱、图像明暗分布不均、背景模糊的表格进行精确识别。
-
公开(公告)号:CN115690793B
公开(公告)日:2023-06-06
申请号:CN202310000574.8
申请日:2023-01-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别模型及其识别方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取分别包括文字信息的第一样本图片和第二样本图片,以及第二样本图片对应的样本文字标签;根据第一样本图片对特征编码网络进行自监督预训练;根据预训练好的特征编码网络、第二样本图片和相应样本文字标签,对特征解码网络进行有监督预训练;根据预训练好的特征编码网络和特征解码网络,生成文字识别模型,用于对待预测图像进行文字识别。根据本公开的技术,提高了文字识别模型的识别结果准确度。
-
公开(公告)号:CN116189198A
公开(公告)日:2023-05-30
申请号:CN202310019561.5
申请日:2023-01-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/41 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/088 , G06N3/0895
Abstract: 本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一训练数据;将第一训练数据输入待训练的目标模型;获取目标模型基于第一训练数据输出的预测文本和预测掩码特征;基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征,训练目标模型,得到文本识别模型。根据本公开的方案,能够提高文本识别的准确性。
-
公开(公告)号:CN114359932B
公开(公告)日:2023-05-23
申请号:CN202210028960.3
申请日:2022-01-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本检测方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景,文本检测方法为:获取待识别图像中文本条的图像特征,对待识别图像进行视觉增强处理,得到待识别图像的增强特征图,对文本条的图像特征与增强特征图进行相似性比对,得到在增强特征图上的文本条的目标包围盒。增强特征图从更多的维度对待识别图像的特征进行表征,使得确定出的包围盒具有较高的准确性和可靠性,且通过从文本条的包围盒和增强特征图的相似性比对确定文本条的包围盒,可以避免包围盒与文本条之间不匹配,使得包围盒具有较强的可靠性。
-
-
-
-
-
-
-
-
-