-
公开(公告)号:CN115690016A
公开(公告)日:2023-02-03
申请号:CN202211287536.7
申请日:2022-10-20
Applicant: 北京百度网讯科技有限公司
IPC: G06T7/00 , G06T7/11 , G06V10/764 , G06N3/0464
Abstract: 本公开提供了图像质量检测方法、装置、电子设备及存储介质,涉及深度学习、计算机视觉以及图像处理等人工智能领域,其中的方法可包括:对待处理图像进行切分操作,得到M个图像块,M为大于一的正整数,任意两个图像块之间均不存在重叠区域;将M个图像块作为网络分类模型的输入,得到输出的待处理图像的质量分类结果,网络分类模型中包括至少两层卷积层,其中,第一层卷积层为采用深度可分离卷积方式的卷积层。应用本公开所述方案,可提升分类结果的准确性等。
-
公开(公告)号:CN112966522B
公开(公告)日:2022-10-14
申请号:CN202110235776.1
申请日:2021-03-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种图像分类方法,装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习方面。具体实现方案为:将待分类的文档图像输入到预先训练好的神经网络模型中,通过神经网络模型得到待分类的文档图像的各个文本框的特征子图;将各个文本框的特征子图与各个文本框的文本信息对应的语义特征和位置信息对应的位置特征输入至多模态特征融合模型中,通过多模态特征融合模型将三者融合为各个文本框对应的多模态特征;基于各个文本框对应的多模态特征对待分类的文档图像进行分类。本申请实施例能够很好地利用文档图像中存在的语义特征和位置特征,最终达到提升文档图像的分类精度的目的。
-
公开(公告)号:CN115019037A
公开(公告)日:2022-09-06
申请号:CN202210516748.1
申请日:2022-05-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26 , G06V10/774 , G06V10/764
Abstract: 本公开提供了一种对象分割方法及对应模型的训练方法、装置及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition;OCR)等场景。具体实现方案为:基于原始图像,获取所述原始图像的语义分割特征;基于所述原始图像和语言表达,获取所述语言表达描述的待分割对象在所述原始图像中的定位特征;基于所述语义分割特征和所述定位特征,获取所述待分割对象在所述原始图像中的分割图。本公开的技术,能够有效地提高待分割对象的分割图的准确性,有效地极提升了引用实例分割的效果。
-
公开(公告)号:CN114937277A
公开(公告)日:2022-08-23
申请号:CN202210543075.9
申请日:2022-05-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/18 , G06V30/19 , G06V10/82
Abstract: 本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。
-
公开(公告)号:CN114821622A
公开(公告)日:2022-07-29
申请号:CN202210234230.9
申请日:2022-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
公开(公告)号:CN114399769A
公开(公告)日:2022-04-26
申请号:CN202210279539.X
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V10/82 , G06V10/764 , G06N3/08
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN113591864A
公开(公告)日:2021-11-02
申请号:CN202110858410.X
申请日:2021-07-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型框架的训练方法、装置及系统,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。包括:基于预设的文本检测模型对样本图像进行特征处理,得到与样本图像中文本信息相关的至少两种特征信息,基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理,得到样本图像的融合特征,将融合特征输入至特征融合模型,基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整,得到文本识别模型框架,文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性,从而实现了训练过程的完整性和全面性,提高了文本识别模型框架的准确性和可靠性。
-
公开(公告)号:CN113378580A
公开(公告)日:2021-09-10
申请号:CN202110697993.2
申请日:2021-06-23
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。
-
公开(公告)号:CN113343981A
公开(公告)日:2021-09-03
申请号:CN202110666440.0
申请日:2021-06-16
Applicant: 北京百度网讯科技有限公司
Abstract: 根据本公开的实施例,提供了一种视觉特征增强的字符识别方法、装置和设备。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。具体方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的中的字符的字符视觉语义特征;以及基于字符视觉语义特征,对字符进行识别。由此,能够提升文本识别的准确率。
-
公开(公告)号:CN112837466A
公开(公告)日:2021-05-25
申请号:CN202011501307.1
申请日:2020-12-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种票据识别方法、装置、设备以及存储介质,涉及计算机视觉、自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括:获取票据图像;将票据图像输入预先训练的票据识别模型的特征提取网络层中,得到票据图像的票据关键字段特征图和票据关键字段值特征图;将票据关键字段特征图输入票据识别模型的第一头部网络层中,得到票据关键字段;利用票据识别模型的第二头部网络层对票据关键字段值特征图进行处理,得到票据关键字段值,其中,特征提取网络层分别与第一头部网络层和第二头部网络层连接;基于票据关键字段和票据关键字段值,生成票据图像的结构化信息。
-
-
-
-
-
-
-
-
-