-
公开(公告)号:CN114550177B
公开(公告)日:2023-06-20
申请号:CN202210182337.3
申请日:2022-02-25
Applicant: 北京百度网讯科技有限公司
Inventor: 刘经拓
Abstract: 本公开提供了一种图像处理的方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域。包括:对获取到的样本图像进行预处理,得到样本图像中字段分别对应的位置信息、图像块、以及文本内容,根据字段分别对应的位置信息、图像块、以及文本内容,对字段的位置信息进行掩码预测,得到预测结果,根据预测结果训练得到文本识别模型,文本识别模型用于对待识别图像进行文本识别,通过融合样本图像的多个维度的内容进行“预训练”,使得“预训练”具有较高的全面性和可靠性,当基于预测结果生成文本识别模型时,使得文本识别模型具有较高的准确性,进而当基于文本识别模型进行文本识别时,提高文本识别的可靠性。
-
公开(公告)号:CN116228897A
公开(公告)日:2023-06-06
申请号:CN202310251906.X
申请日:2023-03-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型和训练方法,人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。实现方案为:确定包括目标对象的目标图像序列;对所述目标图像序列进行编码,以得到目标离散序列,其中所述目标离散序列中的每个元素对应于所述目标图像序列中的图像的一局部区域;基于各个元素对应的局部区域的解码图像特征确定对应于所述目标图像序列的解码特征序列;对所述解码特征序列进行解码,以得到包括所述目标对象的预测图像序列。
-
公开(公告)号:CN116168132A
公开(公告)日:2023-05-26
申请号:CN202211599763.3
申请日:2022-12-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了街景重建模型获取及街景重建方法、装置、设备及介质,涉及增强现实、虚拟现实、计算机视觉以及深度学习等人工智能领域,可应用于元宇宙、智慧城市以及自动驾驶等场景。其中的街景重建模型获取方法可包括:获取对应于不同街道的街景图像,组成第一图像集;对所选取的第一神经渲染模型进行表达能力优化,得到第二神经渲染模型;利用第一图像集中的街景图像对第二神经渲染模型进行预训练,将预训练后的第二神经渲染模型作为街景重建模型,用于利用街景重建模型确定出待重建的相机位姿对应的街景图像。应用本公开所述方案,可提升重建结果的准确性等。
-
公开(公告)号:CN114359932B
公开(公告)日:2023-05-23
申请号:CN202210028960.3
申请日:2022-01-11
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文本检测方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景,文本检测方法为:获取待识别图像中文本条的图像特征,对待识别图像进行视觉增强处理,得到待识别图像的增强特征图,对文本条的图像特征与增强特征图进行相似性比对,得到在增强特征图上的文本条的目标包围盒。增强特征图从更多的维度对待识别图像的特征进行表征,使得确定出的包围盒具有较高的准确性和可靠性,且通过从文本条的包围盒和增强特征图的相似性比对确定文本条的包围盒,可以避免包围盒与文本条之间不匹配,使得包围盒具有较强的可靠性。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN115376211B
公开(公告)日:2023-03-24
申请号:CN202211306264.0
申请日:2022-10-25
Applicant: 北京百度网讯科技有限公司
IPC: G06V40/20 , G06N3/04 , G06N3/08 , G06T13/20 , G06T13/60 , G06V10/44 , G06V10/764 , G06V10/82 , G06V40/16 , G10L15/02
Abstract: 本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备,涉及计算机视觉、增强现实、虚拟现实等人工智能技术领域,可应用于元宇宙、虚拟数字人等场景。具体实现方案为:将样本训练数据输入所述唇形驱动网络,得到第一唇形图像数据和样本音频特征;将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据,输入所述唇形增强网络,得到第二唇形图像数据;将所述第二唇形图像数据和所述样本音频特征,输入所述唇音同步判别网络,得到判别结果;根据所述第二唇形图像数据和所述判别结果,确定训练损失;根据所述训练损失,对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。
-
公开(公告)号:CN115376211A
公开(公告)日:2022-11-22
申请号:CN202211306264.0
申请日:2022-10-25
Applicant: 北京百度网讯科技有限公司
IPC: G06V40/20 , G06N3/04 , G06N3/08 , G06T13/20 , G06T13/60 , G06V10/44 , G06V10/764 , G06V10/82 , G06V40/16 , G10L15/02
Abstract: 本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备,涉及计算机视觉、增强现实、虚拟现实等人工智能技术领域,可应用于元宇宙、虚拟数字人等场景。具体实现方案为:将样本训练数据输入所述唇形驱动网络,得到第一唇形图像数据和样本音频特征;将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据,输入所述唇形增强网络,得到第二唇形图像数据;将所述第二唇形图像数据和所述样本音频特征,输入所述唇音同步判别网络,得到判别结果;根据所述第二唇形图像数据和所述判别结果,确定训练损失;根据所述训练损失,对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。
-
公开(公告)号:CN115375823A
公开(公告)日:2022-11-22
申请号:CN202211290183.6
申请日:2022-10-21
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种三维虚拟服饰生成方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及增强现实、虚拟现实、计算机视觉和深度学习等技术领域。具体实现方案为:获取服饰图像;根据服饰图像和与服饰图像相关的服饰先验信息,进行三维模型拟合重建,生成目标服饰模型;根据服饰图像对目标服饰模型进行纹理渲染,生成与服饰图像对应的三维虚拟服饰。从而,基于单张图像即可实现三维虚拟服饰的高精度重建,提高了三维虚拟服饰的重建质量。
-
公开(公告)号:CN113313113B
公开(公告)日:2022-09-23
申请号:CN202110651962.3
申请日:2021-06-11
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了证件信息获取方法、装置、设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。具体实现方案为:获取目标证件图像;对目标证件图像进行文本识别,确定文本识别结果;根据文本识别结果,在目标证件图像中确定至少一个预设类型的字段所处的目标区域;对目标区域进行字符识别,确定字符识别结果;融合文本识别结果和字符识别结果,确定以及输出目标证件图像的文本信息。本实现方式能够分别识别文本和字符,提高文本识别的准确度。
-
公开(公告)号:CN114998403A
公开(公告)日:2022-09-02
申请号:CN202210667499.6
申请日:2022-06-13
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种深度预测方法、装置、电子设备和介质,涉及人工智能技术领域,具体涉及增强现实AR、虚拟现实、计算机视觉、深度学习等技术领域。一种深度预测方法包括:获取至少两个视频帧,所述至少两个视频帧包括第一帧和第二帧;响应于确定针对所述第一帧存在第一深度数据,确定第一深度数据在所述第二帧的图像坐标系下的经变换的第一深度数据;以及基于所述第二帧的图像数据和所述经变换的第一深度数据确定所述第二帧的预测的第二深度数据。
-
-
-
-
-
-
-
-
-