-
公开(公告)号:CN116012650A
公开(公告)日:2023-04-25
申请号:CN202310002789.3
申请日:2023-01-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/40 , G06N3/09
Abstract: 本公开提供了文字识别模型训练及其识别方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取分别包括文字信息的第一样本图片和第二样本图片,以及第二样本图片对应的样本文字标签;根据第一样本图片对特征提取网络进行自监督预训练,以及,根据第二样本图片和相应样本文字标签,对特征提取网络进行有监督预训练;根据预训练好的特征提取网络,生成文字识别模型,用于对待预测图像进行文字识别。根据本公开的技术,提高了文字识别模型的识别结果准确度。
-
公开(公告)号:CN115438214B
公开(公告)日:2023-04-07
申请号:CN202211385808.7
申请日:2022-11-07
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/583 , G06F40/126 , G06V20/62 , G06V30/19 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种处理文本图像的方法、神经网络及其训练方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。神经网络包括编码子网络、解码子网络、以及预测子网络,处理文本图像的方法包括:将文本图像输入编码子网络,以得到文本图像特征;利用解码子网络,基于经训练的多个文本查询特征对文本图像特征进行解码,以得到与多个文本查询特征对应的多个查询结果特征;以及分别将多个查询结果特征中的每一个查询结果特征输入预测子网络,以得到与该查询结果特征对应的文本图像处理结果。
-
公开(公告)号:CN114429637B
公开(公告)日:2023-04-07
申请号:CN202210041761.6
申请日:2022-01-14
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文档分类方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获得待分类文档的图像;提取所述图像的图像特征,并对所述图像进行文本检测,得到所述图像中的文本以及文本位置信息;获得所得文本的文本特征;按照各文本特征所对应文本的文本位置信息,将各文本特征融合至所述图像特征,得到融合特征;基于所述融合特征,对所述待分类文档进行分类。应用本公开实施例提供的方案,能够实现对文档的分类。
-
公开(公告)号:CN115601620A
公开(公告)日:2023-01-13
申请号:CN202211304730.1
申请日:2022-10-24
Applicant: 北京百度网讯科技有限公司(CN)
Abstract: 本公开提供了特征融合方法、装置、电子设备及计算机可读存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、大模型、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一输入特征以及第二输入特征,第一输入特征以及第二输入特征均与目标分析对象的相关性满足预设的相关性条件;将第一输入特征以及第二输入特征输入预置的特征融合网络,得到第一交叉注意力特征以及第二交叉注意力特征。基于本方案提供的特征融合网络对第一输入特征以及第二输入特征进行特征融合处理,得到融合有第一输入特征的特性以及第二输入特征的特性的第一交叉注意力特征以及第二交叉注意力特征,能够提升特征融合的效果。
-
公开(公告)号:CN115546488A
公开(公告)日:2022-12-30
申请号:CN202211381537.8
申请日:2022-11-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26
Abstract: 本公开提供了一种信息分割方法、信息提取方法和信息分割模型的训练方法,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉等技术领域,可应用于OCR等场景。信息分割方法的具体实现方案为:提取文本图像的图像特征;根据针对结构化信息的查询特征对图像特征进行解码,得到解码特征,解码特征表征文本图像包括的目标结构化信息;以及根据解码特征,确定文本图像包括的目标结构化信息的分割信息;其中,查询特征是预训练得到的。
-
公开(公告)号:CN115438214A
公开(公告)日:2022-12-06
申请号:CN202211385808.7
申请日:2022-11-07
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/583 , G06F40/126 , G06V20/62 , G06V30/19 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种处理文本图像的方法、神经网络及其训练方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。神经网络包括编码子网络、解码子网络、以及预测子网络,处理文本图像的方法包括:将文本图像输入编码子网络,以得到文本图像特征;利用解码子网络,基于经训练的多个文本查询特征对文本图像特征进行解码,以得到与多个文本查询特征对应的多个查询结果特征;以及分别将多个查询结果特征中的每一个查询结果特征输入预测子网络,以得到与该查询结果特征对应的文本图像处理结果。
-
公开(公告)号:CN115187995A
公开(公告)日:2022-10-14
申请号:CN202210807745.3
申请日:2022-07-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/16 , G06V30/148 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文档矫正方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉等技术领域,可应用于OCR等场景。文档矫正方法的具体实现方案为:对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;基于边缘像素点,确定第一边缘线;根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;对第一边缘线和网格图像的第二边缘线进行等分处理,分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点;以及根据第一关键点和第二关键点之间的对应关系,生成目标图像。
-
公开(公告)号:CN115035538A
公开(公告)日:2022-09-09
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN114842474A
公开(公告)日:2022-08-02
申请号:CN202210503483.1
申请日:2022-05-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文字识别方法、装置、电子设备和介质,涉及人工智能技术领域,尤其涉及文本识别技术领域。实现方案为:在第一图像中获取包含待识别的文本行的第一区域;对第一区域进行单字检测,以确定文本行中的每一个单字对应的第一位置信息;基于第一位置信息,确定每一个单字对应的类别;基于类别,确定第一区域中的块区域以及块区域对应的第二位置信息;基于块区域以及对应的第二位置信息,生成第二图像;以及对第二图像进行文字识别。
-
公开(公告)号:CN114818708A
公开(公告)日:2022-07-29
申请号:CN202210419183.5
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06V30/414 , G06V30/416 , G06V30/19 , G06V10/766 , G06V10/82 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:对第一图像进行特征处理,得到所述第一图像中第一文档的第一语义特征,所述第一语义特征是对所述第一图像的第一图像特征进行语义编码得到的,所述第一文档包括文本行;截取所述第一语义特征中所述文本行的区域特征进行解码,得到所述文本行的第一识别信息,所述第一识别信息包括所述文本行的第一文本序列和所述第一文本序列中各文本单元的第一类别标记;从所述第一文本序列中抽取关键信息,所述关键信息包括所述第一文本序列中第一类别标记表征为命名实体的文本单元。
-
-
-
-
-
-
-
-
-