-
公开(公告)号:CN111260586B
公开(公告)日:2023-07-04
申请号:CN202010066508.7
申请日:2020-01-20
Applicant: 北京百度网讯科技有限公司
IPC: G06T5/00 , G06N3/0464
Abstract: 本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。
-
公开(公告)号:CN116363663A
公开(公告)日:2023-06-30
申请号:CN202310348257.5
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V20/62 , G06N3/0455
Abstract: 本公开提供了一种图像处理方法、图像识别方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、光学字符识别、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:对第一样本图像中的样本数字文本进行预测,得到预测结果,其中,第一样本图像为样本对象的图像,对预测结果进行验证,得到验证结果,根据验证结果,构建预测结果、以及样本数字文本的预设标注结果之间的损失函数,根据损失函数生成文本识别模型,其中,文本识别模型用于对待识别对象中的待识别数字文本进行识别,可以相对节约收敛时间,提高训练效率,且可以相对提高训练的可靠性,从而提高文本识别模型的准确性和可靠性。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN115601775A
公开(公告)日:2023-01-13
申请号:CN202211303281.9
申请日:2022-10-24
Applicant: 北京百度网讯科技有限公司(CN)
IPC: G06V30/414 , G06V30/18 , G06V30/16
Abstract: 本公开提供了一种主体检测框的显示方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取对目标对象采集的视频流中的帧图像序列;基于预设的第一抽取频率从所述帧图像序列中抽取显示帧图像,并基于预设的第二抽取率从所述帧图像序列中抽取检测帧图像;响应于从所述检测帧图像中确定出第二检测帧图像,针对第二显示帧图像中的任一个目标第二显示帧图像,基于所述目标第二显示帧图像的前一帧显示帧图像中的主体显示框,以及所述第二检测帧图像中的主体检测框,确定所述目标第二显示帧图像的中的主体显示框。本公开可以减少前后显示帧图像的主体显示框的偏移,减少画面的抖动,提升用户体验。
-
公开(公告)号:CN115035351B
公开(公告)日:2023-01-06
申请号:CN202210838350.X
申请日:2022-07-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/774 , G06V30/148 , G06V30/19
Abstract: 本公开提供了一种基于图像的信息提取模型、方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取待提取的第一图像和待提取信息的类别;通过将所述第一图像和所述类别输入预先训练的信息提取模型,对所述第一图像进行信息提取,得到所述类别对应的文字信息。本公开的技术,能够有效地提高信息提取的效率。
-
公开(公告)号:CN115471717A
公开(公告)日:2022-12-13
申请号:CN202211142519.4
申请日:2022-09-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/82
Abstract: 本公开提供了模型的半监督训练、分类方法装置、设备、介质及产品,涉及人工智能领域,尤其涉及计算机视觉、深度学习领域。具体实现方案为:采用有标签图像样本对待训练的图像分类模型进行训练,获得第一分类模型,所述第一分类模型为第一次训练后的分类模型;确定两个无标签图像样本为一组,获得目标图像样本组;以所述目标图像样本组中两个无标签图像样本互为标签对所述第一分类模型进行训练,获得第二分类模型,所述第二分类模型为第二次训练后的分类模型。
-
公开(公告)号:CN114792423B
公开(公告)日:2022-12-09
申请号:CN202210552234.1
申请日:2022-05-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档图像的处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对文档图像进行处理时,确定出文档图像中感兴趣的实体词所在的文本区域的位置信息,并对该文档图像中与该位置信息对应的图像区域进行文字识别,以得到该感兴趣的实体词在该文档图像中所对应的文本内容。由此,直接对感兴趣的实体词在文档图像上所对应的图像区域进行文字识别,以得到感兴趣的实体词在文档图像中所对应的文本内容,降低了从文档图像中获取感兴趣的文本内容的复杂度,并且提升了从文档图像中确定出了感兴趣的文本内容的准确度。
-
公开(公告)号:CN115130473A
公开(公告)日:2022-09-30
申请号:CN202210419163.8
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/416
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
公开(公告)号:CN114998908A
公开(公告)日:2022-09-02
申请号:CN202210565038.8
申请日:2022-05-23
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/766 , G06V10/80
Abstract: 本公开提供了一种样本图像标注、模型训练方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:提取未标注的第一样本图像的图像特征;根据所述图像特征,获得表征所述第一样本图像中对象位置的位置特征、以及表征所述第一样本图像中对象分类的多种分类特征;根据所述多种分类特征,确定所述第一样本图像的伪标注信息;根据所述图像特征、位置特征以及多种分类特征,获得表征所述伪标注信息正确性的置信度;根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。应用本公开实施例提供的方案,能够提高样本图像标注的准确性。
-
公开(公告)号:CN114842489A
公开(公告)日:2022-08-02
申请号:CN202210521847.9
申请日:2022-05-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/413 , G06V10/44
Abstract: 本公开提供了一种表格解析方法、装置、设备、存储介质以及计算机程序产品,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取待解析的表格图像;对表格图像进行特征提取,得到多个字段特征;对多个字段特征进行行列分类,得到每个字段特征的行列属性;基于行列属性,对多个字段特征对应的文本进行排列,得到解析后的文本表格。提高了表格解析的准确性。
-
-
-
-
-
-
-
-
-