-
公开(公告)号:CN114863450A
公开(公告)日:2022-08-05
申请号:CN202210547469.1
申请日:2022-05-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景下,该方法,包括:获取初始文档图像,其中,初始文档图像包括:文本内容,获取初始文档图像的目标图像特征,根据目标图像特征,确定文本内容的目标文本特征,以及根据目标文本特征,生成与文本内容对应的文本图像,由此,在生成与初始文档图像中文本内容对应的文本图像的过程中,有效提升目标文本特征对初始文档图像中文本内容的特征表征准确性,有效提升所生成文本图像对初始文档图像中文本内容的图像还原质量。
-
公开(公告)号:CN114820885A
公开(公告)日:2022-07-29
申请号:CN202210556462.6
申请日:2022-05-19
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/60 , G06V10/774 , G06V10/25 , G06V10/40 , G06V10/80
Abstract: 本公开提供了一种图像编辑方法及其模型训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉领域。该方法包括:将原始图像中确定的关注区域进行遮盖处理,以形成背景图像样本,并确定关注区域对应的内容作为关注内容样本;将背景图像样本和关注内容样本,输入图像编辑模型中;采用图像编辑模型,将背景图像特征和关注区域特征,基于关注区域在原始图像中的位置进行融合处理以形成融合特征;采用图像编辑模型,根据融合特征进行图像重构操作,以输出重构图像;以原始图像作为监督结果,根据重构图像和原始图像之间的损失关系,对图像编辑模型进行优化训练。本公开可以降低获取模型训练样本的难度和成本。
-
公开(公告)号:CN110147724B
公开(公告)日:2022-07-01
申请号:CN201910289541.3
申请日:2019-04-11
Applicant: 北京百度网讯科技有限公司
Abstract: 根据本公开的示例实施例,提供了一种用于检测视频中的文本区域的方法、装置、设备以及介质。方法包括基于第一图像帧中检测到的第一组文本区域来确定第一组文本区域的第一组跟踪特征,其中第一图像帧在视频的第一时刻被捕获,并且基于第一组跟踪特征来确定第一时刻之后的第二时刻的第二组预测特征。方法还包括基于第二图像帧中检测到的第二组文本区域来确定第二组文本区域的第二组跟踪特征,其中第二图像帧在视频的第二时刻被捕获,然后基于第二组预测特征和第二组跟踪特征来确定视频在第二时刻的一个或多个文本区域。本公开的实施例通过文本跟踪来辅助检测视频中的文本区域,能够建立视频图像帧间的时序联系,从而提高视频文本检测的准确率。
-
公开(公告)号:CN114639107A
公开(公告)日:2022-06-17
申请号:CN202210427478.7
申请日:2022-04-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V10/44
Abstract: 本公开提供了一种表格图像处理方法、装置和存储介质,涉及人工智能技术领域,具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:在对表格图像进行处理时,获取表格图像中各个文本框的第一文本信息以及第一位置信息,并确定表格图像中待识别单元格图像的第二位置信息,以及从第一位置信息中,获取与第二位置信息匹配的第三位置信息,并将第三位置信息所对应文本框中的第二文本信息作为待识别单元格图像中的文本内容。由此,基于表格图像中文本框的文本信息以及位置信息,方便地确定出表格图像中待识别单元格图像中的文本内容,降低了表格图像处理的复杂度,提高了表格图像处理的准确度。
-
公开(公告)号:CN114372477B
公开(公告)日:2022-06-10
申请号:CN202210275278.4
申请日:2022-03-21
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06K9/62 , G06V30/148 , G06V10/774
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。
-
公开(公告)号:CN114358198A
公开(公告)日:2022-04-15
申请号:CN202210022268.X
申请日:2022-01-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种实例分割方法、装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、计算机视觉、自然语言处理技术领域。具体实现方案为:获取M个第一特征,每个第一特征基于待分割图像在一个网络层级提取的视觉特征和待分割对象的语言表达信息的语言特征融合得到,所述待分割图像包括所述待分割对象的图像内容,M为大于1的整数;将所述M个第一特征进行不同网络层级之间的特征融合,得到M个第二特征;将所述M个第二特征进行特征融合,得到目标特征;基于所述目标特征对所述待分割图像进行实例分割,得到所述待分割图像中所述待分割对象的实例分割结果。
-
公开(公告)号:CN114283411A
公开(公告)日:2022-04-05
申请号:CN202111560326.6
申请日:2021-12-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、文本识别模型的训练方法及装置,应用于工智能技术领域,具体为深度学习、计算机视觉技术领域,文本识别方法包括:获取待识别图像的图像序列特征,对所述图像序列特征进行解码处理,得到待识别图像的全量的文本字符串,对文本字符串进行语义增强处理,得到文本序列特征,其中,图像序列特征、文本字符串与文本序列特征的长度相同,根据文本字符串和文本序列特征,确定待识别图像的文本内容,使得识别过程更加全面和完善,不仅充分考虑了用以确定文本内容的元素的完整性和全面性,且考虑了用以确定文本内容的元素在语义理解层面的内容,从而实现了文本识别的准确性、有效性、以及可靠性的技术效果。
-
公开(公告)号:CN114255337A
公开(公告)日:2022-03-29
申请号:CN202111293825.3
申请日:2021-11-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档图像的矫正方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景下。具体实现方案为:基于拍摄文档图像的扭曲图,提取所述扭曲图中的所述文档图像的矫正三维坐标;基于所述文档图像的矫正三维坐标,获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系;基于所述第一映射关系,获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系;基于所述第二映射关系和所述扭曲图中的所述文档图像,恢复矫正文档图像。本公开的技术,能够有效地提高文档图像进行数字化过程中的准确性。
-
公开(公告)号:CN114187445A
公开(公告)日:2022-03-15
申请号:CN202111436961.3
申请日:2021-11-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26 , G06V30/148 , G06V10/24 , G06V10/774 , G06V30/19 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/10
Abstract: 本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及文本识别技术领域。具体实现方案为:对输入图像进行文本分割处理,得到图像分割结果,其中,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;对第一部分文字字段区域进行文本矫正处理,得到矫正结果;对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果。
-
公开(公告)号:CN113792730A
公开(公告)日:2021-12-14
申请号:CN202110945049.4
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/32
Abstract: 本公开提供了文档图像的矫正方法、装置、电子设备和存储介质,人工智能技术领域,涉及计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景,将待矫正文档图像输入形状网络模型,以得到所述待矫正文档图像对应的扭曲三维坐标;将所述扭曲三维坐标输入矫正坐标预测网络模型,以得到扭曲三维坐标对应的矫正三维坐标;根据所述矫正三维坐标及所述待矫正文档图像的角点计算对应的二维前向图;通过对所述二维前向图进行插值计算得到二维向后图,根据所述二维向后图生成矫正后的文档图像。通过从单个待矫正文档图像中消除形变的深度学习,能够降低待矫正文档图像的局部失真率以及OCR字符错误率。
-
-
-
-
-
-
-
-
-