-
公开(公告)号:CN114299522B
公开(公告)日:2023-08-29
申请号:CN202210023327.5
申请日:2022-01-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像识别方法装置、设备和存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:基于待识别图像的特征图,得到多个键实例特征和多个值实例特征;将所述多个键实例特征和所述多个值实例特征进行匹配,得到多个实例特征组合;对所述多个实例特征组合中的每个实例特征组合中的键实例特征和值实例特征进行融合,得到所述每个实例特征组合所对应的融合特征;基于与所述多个实例特征组合分别对应的多个融合特征,得到所述待识别图像的多个键值识别结果。根据本公开的技术,可以充分利用图像中键实例丰富的语义信息,帮助值实例实现更好的分类解析,输出更加准确的图像识别结果。
-
公开(公告)号:CN116645685A
公开(公告)日:2023-08-25
申请号:CN202310369035.1
申请日:2023-04-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了一种表格识别方法、表格识别模型的训练方法、装置及设备,涉及人工智能技术领域,具体为计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:根据预设的总行数和总列数对待识别表格图像的表格尺寸进行扩充,得到扩充后的目标表格图像;所述总行数和所述总列数均为固定值;对所述目标表格图像进行表格识别,得到目标表格图像的表格属性信息;所述表格属性信息包括行的有效性信息、列的有效性信息、表格顶点的坐标和相邻表格顶点之间的连接性;根据所述目标表格图像的表格属性信息进行表格重构,得到所述待识别表格图像中的单元格信息。通过上述技术方案能够提高表格识别的准确性。
-
公开(公告)号:CN116611491A
公开(公告)日:2023-08-18
申请号:CN202310444257.5
申请日:2023-04-23
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/08 , G06N3/0455 , G06N3/048 , G06N3/0499 , G06V10/82 , G06V10/40
Abstract: 本申请公开了目标检测模型的训练方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、深度学习等技术领域,可应用于智慧城市等场景。方案为:对获取样本图像进行编码,获取样本图像对应的编码特征;对编码特征与M组查询特征中的每组查询特征进行解码,获取每组查询特征对应的一组预测结果,其中,M组查询特征是对目标检测模型的多个第一查询特征进行分组得到的;根据每组预测结果中各预测结果与样本图像对应的第一标注之间的匹配结果,对目标检测模型进行训练。由此,分组对预测结果与标注进行匹配,从整体上来讲,样本图像中每个目标可以匹配上多个正样本,使得每个样本图像的监督信号增强,加速了模型的收敛速度。
-
公开(公告)号:CN114119989B
公开(公告)日:2023-08-11
申请号:CN202111432043.3
申请日:2021-11-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06V10/40 , G06V10/74 , G06V10/82 , G06N3/048 , G06N3/084 , G06F16/53 , G06F16/583
Abstract: 本公开提供了图像特征提取模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获取至少一目标样本图像;利用待训练的图像特征提取模型,提取至少一目标样本图像的第一图像特征,并利用指定网络模型,提取至少一目标样本图像的第二图像特征;基于第一图像特征、所提取的第二图像特征以及历史样本特征,计算图像特征提取模型的模型损失值;基于模型损失值,调整图像特征提取模型的模型参数。通过本方案,可以在保证图像特征提取模型的准确度的同时,降低了训练过程中GPU显存的占用。
-
公开(公告)号:CN113052156B
公开(公告)日:2023-08-04
申请号:CN202110270866.4
申请日:2021-03-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/14 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开公开了光学字符识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。具体实现方案为:获取待识别图片中的目标公式区域;对所述目标公式区域内的图片进行特征提取,得到预设高度的第一特征图,所述预设高度大于1;将所述第一特征图展开得到目标特征;以及根据所述目标特征生成目标公式。本公开的光学字符识别方法、装置、电子设备和存储介质,可以提高光学字符识别场景下公式的识别效果,较好的解决图片场景公式的识别问题。
-
公开(公告)号:CN116486420A
公开(公告)日:2023-07-25
申请号:CN202310389021.6
申请日:2023-04-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/40 , G06V30/19 , G06V10/82 , G06F40/279 , G06F40/30 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征具有更强语义表示的融合特征,从而提升了文档图像中实体抽取的准确率。
-
公开(公告)号:CN116486413A
公开(公告)日:2023-07-25
申请号:CN202310348278.7
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148
Abstract: 本公开涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于光学文字识别、智慧城市等场景,具体涉及一种标签处理方法、装置、电子设备及存储介质。具体实现方案为:获取对商品标签中的多个文本行检测区域进行识别,获得的多个文本识别结果,每个文本识别结果对应一个文本行检测区域;通过数值匹配方式,对多个文本识别结果进行处理,获得商品标签中的标签信息。采用本公开可以有效应对实际业务场景中多样化的标签版式分布情况,从而提高标签处理方法的可用性。
-
公开(公告)号:CN116363663A
公开(公告)日:2023-06-30
申请号:CN202310348257.5
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V20/62 , G06N3/0455
Abstract: 本公开提供了一种图像处理方法、图像识别方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、光学字符识别、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:对第一样本图像中的样本数字文本进行预测,得到预测结果,其中,第一样本图像为样本对象的图像,对预测结果进行验证,得到验证结果,根据验证结果,构建预测结果、以及样本数字文本的预设标注结果之间的损失函数,根据损失函数生成文本识别模型,其中,文本识别模型用于对待识别对象中的待识别数字文本进行识别,可以相对节约收敛时间,提高训练效率,且可以相对提高训练的可靠性,从而提高文本识别模型的准确性和可靠性。
-
公开(公告)号:CN115620321B
公开(公告)日:2023-06-23
申请号:CN202211291218.8
申请日:2022-10-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18
Abstract: 本公开公开了一种表格识别方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、大模型、计算机视觉技术领域,可应用于OCR(文字识别技术)等场景。具体为:对表格图像进行特征提取,得到图像特征;将预先定义好的行号及列号转化为目标向量,将目标向量作为对应行或列的请求特征;编码各行的请求特征与图像特征,得到各行对应的行特征,编码各列的请求特征与图像特征,得到各列对应的列特征;依据行特征及列特征确定表格图像中的行分割线及列分割线;依据行特征及列特征确定角点特征,依据角点特征合并单元格,得到表格识别结果。本公开可以对对比度较弱、图像明暗分布不均、背景模糊的表格进行精确识别。
-
公开(公告)号:CN115482533B
公开(公告)日:2023-06-16
申请号:CN202211140643.7
申请日:2022-09-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种陈列柜的拆分方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及计算机视觉、深度学习等人工智能技术领域。包括:获取待处理图像,待处理图像中包含陈列柜;对待处理图像进行语义分割及角点回归检测,以获取陈列柜对应的第一分隔板图像及第一角点检测结果;对待处理图像进行分隔板间隙检测,以获取陈列柜对应的第一间隙检测结果;根据第一角点检测结果或第一间隙检测结果,对第一分隔板图像中包含的第一分隔板进行拆分处理,以确定陈列柜中包含的各子陈列柜。由此,可以从第一角点检测结果及第一间隙检测结果中选择较优的检测结果,准确地将陈列柜拆分成多个子陈列柜,为确定商品在陈列柜中的具体位置提供了条件。
-
-
-
-
-
-
-
-
-