-
公开(公告)号:CN114359932B
公开(公告)日:2023-05-23
申请号:CN202210028960.3
申请日:2022-01-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本检测方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景,文本检测方法为:获取待识别图像中文本条的图像特征,对待识别图像进行视觉增强处理,得到待识别图像的增强特征图,对文本条的图像特征与增强特征图进行相似性比对,得到在增强特征图上的文本条的目标包围盒。增强特征图从更多的维度对待识别图像的特征进行表征,使得确定出的包围盒具有较高的准确性和可靠性,且通过从文本条的包围盒和增强特征图的相似性比对确定文本条的包围盒,可以避免包围盒与文本条之间不匹配,使得包围盒具有较强的可靠性。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN115860102A
公开(公告)日:2023-03-28
申请号:CN202310133636.2
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0895 , G06N3/096 , G06N3/0464
Abstract: 本公开提供了一种自动驾驶感知模型的预训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:获取至少两种模态的训练样本;其中,所述训练样本包括无标注数据;按照设定的自监督学习顺序,采用至少两种模态的无标注数据,对感知模型中的特征提取网络,进行单一模态的模态内自监督学习和模态间自监督学习,以形成预训练完成的感知模型。本方案为自动驾驶感知模型提供了一种预训练方案,能够采用无标注数据,分别进行模态内自监督学习和模态间自监督学习,实现自动驾驶感知模型的预训练。
-
公开(公告)号:CN115482390A
公开(公告)日:2022-12-16
申请号:CN202211219369.2
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域。具体实现方案为:将样本图像输入第一深度学习模型的第一特征提取网络,得到样本图像的第一特征;对第一特征进行特征提取,得到与样本图像的类别无关的噪声特征;对噪声特征进行转换,得到转换后的噪声特征,其中,转换后的噪声特征的维度与样本图像的第二特征的维度之间的维度差异小于或等于预设维度差异阈值;将转换后的噪声特征输入第二深度学习模型,得到噪声迁移后的分类结果;根据噪声迁移后的分类结果,训练第一深度学习模型。本公开还提供了一种图像分类方法、装置、电子设备和存储介质。
-
公开(公告)号:CN115131562A
公开(公告)日:2022-09-30
申请号:CN202210806899.0
申请日:2022-07-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/08
Abstract: 本公开提供了一种三维场景分割方法、模型训练方法、装置和电子设备,涉及人工智能技术领域,具体涉及图像处理、计算机视觉和深度学习等技术领域,可应用于3D视觉、增强现实等场景。实现方案为:获得目标三维场景对应的目标点云数据;对目标点云数据进行第一体素化,以获得目标点云数据对应的第一体素化数据,所述第一体素化数据包括多个第一尺寸的体素,多个第一尺寸的体素中的每一个体素与多个点中的至少一个点对应;对第一体素化数据进行特征提取,获得第一特征;以及基于第一特征,获得目标三维场景的分割结果。
-
公开(公告)号:CN113313113B
公开(公告)日:2022-09-23
申请号:CN202110651962.3
申请日:2021-06-11
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了证件信息获取方法、装置、设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。具体实现方案为:获取目标证件图像;对目标证件图像进行文本识别,确定文本识别结果;根据文本识别结果,在目标证件图像中确定至少一个预设类型的字段所处的目标区域;对目标区域进行字符识别,确定字符识别结果;融合文本识别结果和字符识别结果,确定以及输出目标证件图像的文本信息。本实现方式能够分别识别文本和字符,提高文本识别的准确度。
-
公开(公告)号:CN113011420B
公开(公告)日:2022-08-30
申请号:CN202110261383.8
申请日:2021-03-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了字符识别方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取目标图片;对所述目标图片进行特征编码,得到所述目标图片的视觉特征;对所述视觉特征进行特征映射,得到所述目标图片的第一目标特征,所述第一目标特征为与所述目标图片的字符语义信息的特征具有匹配空间的特征;将所述第一目标特征输入至字符识别模型进行字符识别,以得到所述目标图片的第一字符识别结果。根据本申请的技术,解决了字符识别技术存在的字符识别准确性比较低的问题,提高了对图片进行字符识别的准确性。
-
公开(公告)号:CN110147724B
公开(公告)日:2022-07-01
申请号:CN201910289541.3
申请日:2019-04-11
Applicant: 北京百度网讯科技有限公司
Abstract: 根据本公开的示例实施例,提供了一种用于检测视频中的文本区域的方法、装置、设备以及介质。方法包括基于第一图像帧中检测到的第一组文本区域来确定第一组文本区域的第一组跟踪特征,其中第一图像帧在视频的第一时刻被捕获,并且基于第一组跟踪特征来确定第一时刻之后的第二时刻的第二组预测特征。方法还包括基于第二图像帧中检测到的第二组文本区域来确定第二组文本区域的第二组跟踪特征,其中第二图像帧在视频的第二时刻被捕获,然后基于第二组预测特征和第二组跟踪特征来确定视频在第二时刻的一个或多个文本区域。本公开的实施例通过文本跟踪来辅助检测视频中的文本区域,能够建立视频图像帧间的时序联系,从而提高视频文本检测的准确率。
-
公开(公告)号:CN114372477B
公开(公告)日:2022-06-10
申请号:CN202210275278.4
申请日:2022-03-21
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06K9/62 , G06V30/148 , G06V10/774
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。
-
公开(公告)号:CN114461837A
公开(公告)日:2022-05-10
申请号:CN202210141816.0
申请日:2022-02-16
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/583 , G06F16/55 , G06V10/762 , G06K9/62
Abstract: 本公开提供一种图像处理方法、装置及电子设备,涉及人工智能领域,尤其涉及深度学习、计算机视觉领域,可应用于图像处理、图像检测等场景。方案为:获取图像集;对图像集中各图像分别进行目标检测得到第一区域图像集,对图像集中各图像分别进行无重叠剪裁得到第二区域图像集,对第一区域图像集以及第二区域图像集进行聚类确定多个图像聚类簇,针对每个图像聚类簇,基于图像聚类簇中图像的特征确定图像聚类簇的类心特征,用于图像检索。图像聚类簇中的区域图像一方面提高了目标的区域图像的完整性,另一方面减少了剪裁的区域图像数量,且利用图像聚类簇中图像的特征确定该图像聚类簇的类心特征,用于图像检索,可降低检索复杂程度,提高检索效率。
-
-
-
-
-
-
-
-
-