-
公开(公告)号:CN113762109B
公开(公告)日:2023-11-07
申请号:CN202110970305.5
申请日:2021-08-23
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/413 , G06V30/414 , G06V10/82
Abstract: 本公开提供了一种文字定位方法及文字定位模型的训练方法,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别OCR等场景。具体实现方案为:获取样本图像;将样本图像输入至待训练的文字定位模型中,输出预测文本框;获取样本先验锚点框;根据样本先验锚点框、标注文本框和预测文本框,对文字定位模型的模型参数进行调整,并使用下一个样本图像对调整后的文字定位模型继续训练,直至模型训练结束生成目标文字定位模型。由此,本公开能够通过结合先验锚点框进行文字定位模型的训练,不再需要在模型训练过程中从零开始进行回归预测,降低了模型训练过程中的耗时及难度,提高了模型训练结果的可靠性。
-
公开(公告)号:CN113255664B
公开(公告)日:2023-10-20
申请号:CN202110576183.1
申请日:2021-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/146
Abstract: 本公开提供了图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机视觉和深度学习等人工智能技术领域,可应用于图像识别场景下。该方法的一具体实施方式包括:确定待处理图像在不同分辨率下构成待矫正对象的像素点的三维坐标,得到三维预测坐标后,根据该三维预测坐标确定该待矫正对象的表面扭曲参数,最终根据该三维预测坐标和该表面扭曲参数生成该待矫正对象的平面图像。该实施方式基于不同分辨率的待处理图像进行三维坐标预测,以更精准的确定待矫正对象的表面扭曲参数,实现更为精准的图像扭曲矫正,提升图像识别、矫正结果的质量。
-
公开(公告)号:CN116486420A
公开(公告)日:2023-07-25
申请号:CN202310389021.6
申请日:2023-04-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/40 , G06V30/19 , G06V10/82 , G06F40/279 , G06F40/30 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征具有更强语义表示的融合特征,从而提升了文档图像中实体抽取的准确率。
-
公开(公告)号:CN111260586B
公开(公告)日:2023-07-04
申请号:CN202010066508.7
申请日:2020-01-20
Applicant: 北京百度网讯科技有限公司
IPC: G06T5/00 , G06N3/0464
Abstract: 本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。
-
公开(公告)号:CN116363663A
公开(公告)日:2023-06-30
申请号:CN202310348257.5
申请日:2023-04-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V20/62 , G06N3/0455
Abstract: 本公开提供了一种图像处理方法、图像识别方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、光学字符识别、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:对第一样本图像中的样本数字文本进行预测,得到预测结果,其中,第一样本图像为样本对象的图像,对预测结果进行验证,得到验证结果,根据验证结果,构建预测结果、以及样本数字文本的预设标注结果之间的损失函数,根据损失函数生成文本识别模型,其中,文本识别模型用于对待识别对象中的待识别数字文本进行识别,可以相对节约收敛时间,提高训练效率,且可以相对提高训练的可靠性,从而提高文本识别模型的准确性和可靠性。
-
公开(公告)号:CN115035351B
公开(公告)日:2023-01-06
申请号:CN202210838350.X
申请日:2022-07-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/774 , G06V30/148 , G06V30/19
Abstract: 本公开提供了一种基于图像的信息提取模型、方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取待提取的第一图像和待提取信息的类别;通过将所述第一图像和所述类别输入预先训练的信息提取模型,对所述第一图像进行信息提取,得到所述类别对应的文字信息。本公开的技术,能够有效地提高信息提取的效率。
-
公开(公告)号:CN115471717A
公开(公告)日:2022-12-13
申请号:CN202211142519.4
申请日:2022-09-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06V10/764 , G06V10/82
Abstract: 本公开提供了模型的半监督训练、分类方法装置、设备、介质及产品,涉及人工智能领域,尤其涉及计算机视觉、深度学习领域。具体实现方案为:采用有标签图像样本对待训练的图像分类模型进行训练,获得第一分类模型,所述第一分类模型为第一次训练后的分类模型;确定两个无标签图像样本为一组,获得目标图像样本组;以所述目标图像样本组中两个无标签图像样本互为标签对所述第一分类模型进行训练,获得第二分类模型,所述第二分类模型为第二次训练后的分类模型。
-
公开(公告)号:CN114998908A
公开(公告)日:2022-09-02
申请号:CN202210565038.8
申请日:2022-05-23
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/766 , G06V10/80
Abstract: 本公开提供了一种样本图像标注、模型训练方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:提取未标注的第一样本图像的图像特征;根据所述图像特征,获得表征所述第一样本图像中对象位置的位置特征、以及表征所述第一样本图像中对象分类的多种分类特征;根据所述多种分类特征,确定所述第一样本图像的伪标注信息;根据所述图像特征、位置特征以及多种分类特征,获得表征所述伪标注信息正确性的置信度;根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。应用本公开实施例提供的方案,能够提高样本图像标注的准确性。
-
公开(公告)号:CN114255337A
公开(公告)日:2022-03-29
申请号:CN202111293825.3
申请日:2021-11-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档图像的矫正方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景下。具体实现方案为:基于拍摄文档图像的扭曲图,提取所述扭曲图中的所述文档图像的矫正三维坐标;基于所述文档图像的矫正三维坐标,获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系;基于所述第一映射关系,获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系;基于所述第二映射关系和所述扭曲图中的所述文档图像,恢复矫正文档图像。本公开的技术,能够有效地提高文档图像进行数字化过程中的准确性。
-
公开(公告)号:CN113792730A
公开(公告)日:2021-12-14
申请号:CN202110945049.4
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/32
Abstract: 本公开提供了文档图像的矫正方法、装置、电子设备和存储介质,人工智能技术领域,涉及计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景,将待矫正文档图像输入形状网络模型,以得到所述待矫正文档图像对应的扭曲三维坐标;将所述扭曲三维坐标输入矫正坐标预测网络模型,以得到扭曲三维坐标对应的矫正三维坐标;根据所述矫正三维坐标及所述待矫正文档图像的角点计算对应的二维前向图;通过对所述二维前向图进行插值计算得到二维向后图,根据所述二维向后图生成矫正后的文档图像。通过从单个待矫正文档图像中消除形变的深度学习,能够降低待矫正文档图像的局部失真率以及OCR字符错误率。
-
-
-
-
-
-
-
-
-