-
公开(公告)号:CN114358198A
公开(公告)日:2022-04-15
申请号:CN202210022268.X
申请日:2022-01-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种实例分割方法、装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、计算机视觉、自然语言处理技术领域。具体实现方案为:获取M个第一特征,每个第一特征基于待分割图像在一个网络层级提取的视觉特征和待分割对象的语言表达信息的语言特征融合得到,所述待分割图像包括所述待分割对象的图像内容,M为大于1的整数;将所述M个第一特征进行不同网络层级之间的特征融合,得到M个第二特征;将所述M个第二特征进行特征融合,得到目标特征;基于所述目标特征对所述待分割图像进行实例分割,得到所述待分割图像中所述待分割对象的实例分割结果。
-
公开(公告)号:CN114283411A
公开(公告)日:2022-04-05
申请号:CN202111560326.6
申请日:2021-12-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、文本识别模型的训练方法及装置,应用于工智能技术领域,具体为深度学习、计算机视觉技术领域,文本识别方法包括:获取待识别图像的图像序列特征,对所述图像序列特征进行解码处理,得到待识别图像的全量的文本字符串,对文本字符串进行语义增强处理,得到文本序列特征,其中,图像序列特征、文本字符串与文本序列特征的长度相同,根据文本字符串和文本序列特征,确定待识别图像的文本内容,使得识别过程更加全面和完善,不仅充分考虑了用以确定文本内容的元素的完整性和全面性,且考虑了用以确定文本内容的元素在语义理解层面的内容,从而实现了文本识别的准确性、有效性、以及可靠性的技术效果。
-
公开(公告)号:CN114255337A
公开(公告)日:2022-03-29
申请号:CN202111293825.3
申请日:2021-11-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档图像的矫正方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景下。具体实现方案为:基于拍摄文档图像的扭曲图,提取所述扭曲图中的所述文档图像的矫正三维坐标;基于所述文档图像的矫正三维坐标,获取所述文档图像的所述矫正三维坐标到矫正二维坐标的第一映射关系;基于所述第一映射关系,获取所述文档图像的所述矫正二维坐标到所述文档图像在所述扭曲图中的扭曲二维坐标的第二映射关系;基于所述第二映射关系和所述扭曲图中的所述文档图像,恢复矫正文档图像。本公开的技术,能够有效地提高文档图像进行数字化过程中的准确性。
-
公开(公告)号:CN114187445A
公开(公告)日:2022-03-15
申请号:CN202111436961.3
申请日:2021-11-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26 , G06V30/148 , G06V10/24 , G06V10/774 , G06V30/19 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/10
Abstract: 本公开提供了一种识别图像中文本的方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及文本识别技术领域。具体实现方案为:对输入图像进行文本分割处理,得到图像分割结果,其中,输入图像中的显示内容包括:待识别文字,图像分割结果包括:待识别文字对应的多个文字字段区域的分割掩膜图;对图像分割结果进行文本分类处理,将多个文字字段区域划分为第一部分文字字段区域和第二部分文字字段区域,其中,第一部分文字字段区域的文字扭曲度大于第二部分文字字段区域的文字扭曲度;对第一部分文字字段区域进行文本矫正处理,得到矫正结果;对矫正结果和第二部分文字字段区域进行文本识别处理,得到识别结果。
-
公开(公告)号:CN114119989A
公开(公告)日:2022-03-01
申请号:CN202111432043.3
申请日:2021-11-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了图像特征提取模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获取至少一目标样本图像;利用待训练的图像特征提取模型,提取至少一目标样本图像的第一图像特征,并利用指定网络模型,提取至少一目标样本图像的第二图像特征;基于第一图像特征、所提取的第二图像特征以及历史样本特征,计算图像特征提取模型的模型损失值;基于模型损失值,调整图像特征提取模型的模型参数。通过本方案,可以在保证图像特征提取模型的准确度的同时,降低了训练过程中GPU显存的占用。
-
公开(公告)号:CN114037991A
公开(公告)日:2022-02-11
申请号:CN202111310505.4
申请日:2021-11-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V20/62 , G06V30/18 , G06V30/19 , G06K9/62 , G06V10/82 , G06T7/00 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种图像质量的确定方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于光学特征识别等场景。具体实现方案为:确定目标图像在不同维度的特征信息;根据图像识别需求,从不同维度的特征信息中确定目标维度的特征信息;利用目标维度的特征信息,确定目标图像的质量。可以实现有效的控制图像识别中的输入图像的质量的效果。
-
公开(公告)号:CN110378346B
公开(公告)日:2021-12-24
申请号:CN201910515396.6
申请日:2019-06-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供一种建立文字识别模型的方法,所述方法包括:获取包含各文字图像以及各文字图像中所包含文字的识别结果的训练数据;确定包含构建模型结构的卷积神经网络和循环神经网络的各参数以及各参数的取值范围的搜索空间;分别从卷积神经网络以及循环神经网络的各参数的取值范围中进行采样,在利用各参数取值的采样结果得到模型结构序列之后,根据模型结构序列构建对应的模型结构;依据训练数据获取模型结构的奖励值,并确定奖励值是否满足预设条件,若否,则转至执行构建模型结构的步骤,直至模型结构的奖励值满足预设条件,输出模型结构作为最终模型结构;利用训练数据对最终模型结构进行训练,直至最终模型结构收敛,得到文字识别模型。
-
公开(公告)号:CN113792730A
公开(公告)日:2021-12-14
申请号:CN202110945049.4
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/32
Abstract: 本公开提供了文档图像的矫正方法、装置、电子设备和存储介质,人工智能技术领域,涉及计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景,将待矫正文档图像输入形状网络模型,以得到所述待矫正文档图像对应的扭曲三维坐标;将所述扭曲三维坐标输入矫正坐标预测网络模型,以得到扭曲三维坐标对应的矫正三维坐标;根据所述矫正三维坐标及所述待矫正文档图像的角点计算对应的二维前向图;通过对所述二维前向图进行插值计算得到二维向后图,根据所述二维向后图生成矫正后的文档图像。通过从单个待矫正文档图像中消除形变的深度学习,能够降低待矫正文档图像的局部失真率以及OCR字符错误率。
-
公开(公告)号:CN113657398A
公开(公告)日:2021-11-16
申请号:CN202110947890.7
申请日:2021-08-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了图像识别方法和装置,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,具体可用于OCR光学字符识别等场景。具体实现方案为:获取待识别图像;将待识别图像输入预设的图像识别模型,得到与至少两个卡证图像中每一卡证图像对应的第一识别结果;根据第一识别结果所指示的类别,对与第一识别结果对应的卡证图像执行相应的识别操作,得到第二识别结果;汇总第二识别结果并输出。该方式有效提高了对多卡证图像进行识别的准确率和效率。
-
公开(公告)号:CN113657390A
公开(公告)日:2021-11-16
申请号:CN202110934294.5
申请日:2021-08-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本检测模型的训练方法和检测文本的方法,涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于图像处理和图像识别等场景下。训练方法包括:将样本图像输入文本检测模型的文本特征提取子模型,得到样本图像中文本的文本特征;该样本图像具有指示实际位置信息和实际类别的标签;将预定文本向量输入文本检测模型的文本编码子模型,得到文本参考特征;将文本特征和文本参考特征输入文本检测模型的解码子模型,得到文本序列向量;将文本序列向量输入文本检测模型的输出子模型,得到预测位置信息和预测类别;以及基于预测类别、实际类别、预测位置信息和实际位置信息,对文本检测模型进行训练。
-
-
-
-
-
-
-
-
-