-
公开(公告)号:CN116071758A
公开(公告)日:2023-05-05
申请号:CN202310118570.X
申请日:2023-01-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/10 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/0464 , G06N3/0442
Abstract: 本公开提供了一种图像识别模型的训练方法、图像识别方法、装置及设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:根据目标公式图像中目标符号的目标语义特征,确定所述目标符号的目标注意力权重;根据所述目标语义特征和所述目标注意力权重,确定所述目标符号的识别结果;根据所述识别结果、所述目标注意力权重和所述目标符号的标签数据,对公式识别模型进行训练。通过上述技术方案,可以提高公式识别的准确性。
-
公开(公告)号:CN115965075A
公开(公告)日:2023-04-14
申请号:CN202211605781.8
申请日:2022-12-14
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/084 , G06N3/08 , G06V30/148
Abstract: 本公开提供了一种文字识别模型训练方法、装置以及设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。该方法的一具体实施方式包括:获取第一有标签样本集合和无标签样本集合;利用第一有标签样本集合对第一模型进行训练,得到辅助模型;利用辅助模型对无标签样本集合进行样本筛选和标签标注,得到第二有标签样本集合;利用第一有标签样本集合和第二有标签样本集合对第二模型进行训练,得到文字识别模型,其中,第一模型的规模大于第二模型。该实施方式能够在有标签样本数量缺乏的情况下充分利用无标签样本,提升文字识别模型对手写文本图像的识别精度。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN114639107B
公开(公告)日:2023-03-24
申请号:CN202210427478.7
申请日:2022-04-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V10/44
Abstract: 本公开提供了一种表格图像处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对表格图像进行处理时,获取表格图像中各个文本框的第一文本信息以及第一位置信息,并确定表格图像中待识别单元格图像的第二位置信息,以及从第一位置信息中,获取与第二位置信息匹配的第三位置信息,并将第三位置信息所对应文本框中的第二文本信息作为待识别单元格图像中的文本内容。由此,基于表格图像中文本框的文本信息以及位置信息,方便地确定出表格图像中待识别单元格图像中的文本内容,降低了表格图像处理的复杂度,提高了表格图像处理的准确度。
-
公开(公告)号:CN115620321A
公开(公告)日:2023-01-17
申请号:CN202211291218.8
申请日:2022-10-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18
Abstract: 本公开公开了一种表格识别方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、大模型、计算机视觉技术领域,可应用于OCR(文字识别技术)等场景。具体为:对表格图像进行特征提取,得到图像特征;将预先定义好的行号及列号转化为目标向量,将目标向量作为对应行或列的请求特征;编码各行的请求特征与图像特征,得到各行对应的行特征,编码各列的请求特征与图像特征,得到各列对应的列特征;依据行特征及列特征确定表格图像中的行分割线及列分割线;依据行特征及列特征确定角点特征,依据角点特征合并单元格,得到表格识别结果。本公开可以对对比度较弱、图像明暗分布不均、背景模糊的表格进行精确识别。
-
公开(公告)号:CN115578735A
公开(公告)日:2023-01-06
申请号:CN202211205551.2
申请日:2022-09-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本检测方法和文本检测模型的训练方法、装置,涉及人工智能领域,具体涉及计算机视觉、深度学习和图像处理等技术领域,可应用于OCR等场景。文本检测方法包括:提取文本图像的图像特征;采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;根据解码特征序列,预测得到多个预测结果;每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息;以及根据关联信息和分类信息,确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果。
-
公开(公告)号:CN114792423B
公开(公告)日:2022-12-09
申请号:CN202210552234.1
申请日:2022-05-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档图像的处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对文档图像进行处理时,确定出文档图像中感兴趣的实体词所在的文本区域的位置信息,并对该文档图像中与该位置信息对应的图像区域进行文字识别,以得到该感兴趣的实体词在该文档图像中所对应的文本内容。由此,直接对感兴趣的实体词在文档图像上所对应的图像区域进行文字识别,以得到感兴趣的实体词在文档图像中所对应的文本内容,降低了从文档图像中获取感兴趣的文本内容的复杂度,并且提升了从文档图像中确定出了感兴趣的文本内容的准确度。
-
公开(公告)号:CN115130473A
公开(公告)日:2022-09-30
申请号:CN202210419163.8
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/416
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
公开(公告)号:CN113657274B
公开(公告)日:2022-09-20
申请号:CN202110945523.3
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/414 , G06V30/148
Abstract: 本公开提供了一种表格生成方法、装置、电子设备及存储介质,涉及人工智能领域;具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。具体实现方案为:识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性包括单元格属性或非单元格属性;确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。本公开的技术方案提高了表格生成精度。
-
公开(公告)号:CN113011420B
公开(公告)日:2022-08-30
申请号:CN202110261383.8
申请日:2021-03-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了字符识别方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取目标图片;对所述目标图片进行特征编码,得到所述目标图片的视觉特征;对所述视觉特征进行特征映射,得到所述目标图片的第一目标特征,所述第一目标特征为与所述目标图片的字符语义信息的特征具有匹配空间的特征;将所述第一目标特征输入至字符识别模型进行字符识别,以得到所述目标图片的第一字符识别结果。根据本申请的技术,解决了字符识别技术存在的字符识别准确性比较低的问题,提高了对图片进行字符识别的准确性。
-
-
-
-
-
-
-
-
-