-
公开(公告)号:CN113947195B
公开(公告)日:2025-02-21
申请号:CN202111212328.6
申请日:2021-10-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/82 , G06F16/36 , G06V10/764 , G06V10/774 , G06N3/0455
Abstract: 本公开提供了一种模型确定方法、装置、电子设备和存储器,涉及计算机技术领域,尤其涉及计算机视觉和深度学习领域,可应用于图像处理、图像识别等场景。具体实现方案为:获取第一图像样本和第一文本样本;对第一图像样本和第一文本样本进行训练,得到第一目标模型,其中,第一目标模型学习到第一文本样本的局部特征;获取第二图像样本和第二文本样本,并基于第二图像样本和第二文本样本对第一目标模型进行训练,得到第二目标模型,第二目标模型学习到第二文本样本的全局特征;将第二目标模型确定为第三目标模型的初始化模型,初始化模型的训练效果低的技术问题。
-
公开(公告)号:CN111767846B
公开(公告)日:2024-08-23
申请号:CN202010605404.9
申请日:2020-06-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种图像识别方法,涉及人工智能技术领域,尤其涉及图像处理技术领域。具体实现方案为:将预处理的人脸图像进行五官识别,并在人脸图像中标注人脸五官的位置,得到标注的人脸图像;确定标注的人脸图像的多尺度下的人脸图像,将多尺度的人脸图像输入主干网络模型进行特征提取,获得多种尺度下每一种尺度的人脸图像的皱纹特征;将位于人脸图像同一区域的每一种尺度的皱纹特征进行融合,获得人脸图像的皱纹识别结果。本申请实施例具有较高的皱纹识别精度,且不易受光照等外界环境的影响。
-
公开(公告)号:CN116206370B
公开(公告)日:2024-02-23
申请号:CN202310500623.4
申请日:2023-05-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了驱动信息生成、驱动方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等技术领域。具体实现方案为:确定第一局部骨骼在目标时间段中至少一个时刻的第一局部骨骼旋转角度,第一局部骨骼表征对象的第一关节点和第二关节点之间的骨骼;以及根据全局骨骼旋转角度和第一局部骨骼旋转角度,生成与对象在目标时间段的动作相对应的驱动信息,全局骨骼旋转角度根据对象的对象关节点在至少一个时刻的关节点位置信息确定。
-
公开(公告)号:CN117218499A
公开(公告)日:2023-12-12
申请号:CN202311286394.7
申请日:2023-09-29
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/776 , G06V40/16 , G06V10/82 , G06T17/00
Abstract: 本公开提供了一种面部表情捕捉模型的训练方法、面部表情驱动方法和装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。该方法包括:获取样本人脸图像;利用深度学习模型进行人脸参数预测,得到样本人脸参数;利用三维人脸重建模型生成样本三维人脸模型,并渲染得到预测人脸图像;利用预训练的情绪分类模型分别对样本人脸图像和预测人脸图像进行情绪分类,得到与样本人脸图像对应的第一情绪类别和与预测人脸图像对应的第二情绪类别;基于第一情绪类别和第二情绪类别,计算情绪类别损失;以及至少基于情绪类别损失,调整深度学习模型的参数,以得到面部表情捕捉模型。
-
公开(公告)号:CN113343982B
公开(公告)日:2023-07-25
申请号:CN202110666465.0
申请日:2021-06-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V30/18 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08 , G06V30/262 , G06F40/295 , G06F40/247
Abstract: 根据本公开的实施例,提供了一种多模态特征融合的实体关系提取的方法、装置、设备、介质和程序产品。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的区域视觉语义特征;基于区域视觉语义特征,确定多个区域的关系信息,关系信息至少指示多个区域中的任意两个区域之间的关联程度;基于关系信息,将多个区域中的区域相关联;针对获取的实体,提取实体关系。由此能够提升文本识别的准确率。
-
公开(公告)号:CN114820906B
公开(公告)日:2022-11-22
申请号:CN202210721378.5
申请日:2022-06-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像渲染方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为增强现实AR、虚拟现实VR、计算机视觉、增强现实、深度学习等技术领域,可应用于虚拟形象、元宇宙等场景。该方法包括:对环境物体模型进行渲染,得到目标视角下的环境物体图像;基于目标物体的神经辐射场,确定目标物体模型和目标视角下的目标物体图像;根据所述目标物体模型,将所述目标物体图像融合渲染到所述环境物体图像中。通过上述技术方案能够提高图像渲染质量。
-
公开(公告)号:CN113656582B
公开(公告)日:2022-11-18
申请号:CN202110945344.X
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/35 , G06F16/583 , G06V10/40 , G06V10/764 , G06V10/774 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种图像检索方法、装置、设备和介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像处理和图像识别等场景。该图像检索方法包括:将待检测图像输入图像识别神经网络模型,获取图像识别神经网络模型输出的图像特征向量;基于待检测图像的图像特征向量,从数据库中确定待检测图像的第一匹配图像集。
-
公开(公告)号:CN115035538A
公开(公告)日:2022-09-09
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN114942984A
公开(公告)日:2022-08-26
申请号:CN202210590151.1
申请日:2022-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/332 , G06F16/38 , G06F16/532 , G06F16/58 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/42 , G06V10/80 , G06V10/82
Abstract: 本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为:获取样本图文对;提取样本图像中的样本场景文本;将样本文本输入文本编码网络,得到样本文本特征;将样本图像和初始的样本融合特征输入视觉编码子网络,以及将初始的样本融合特征和样本场景文本输入场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征,对视觉场景文本融合模型进行预训练。通过上述技术方案,能够提高图文跨模态检索性能。
-
公开(公告)号:CN114842123A
公开(公告)日:2022-08-02
申请号:CN202210738050.4
申请日:2022-06-28
Applicant: 北京百度网讯科技有限公司
IPC: G06T15/02 , G06T15/04 , G06T17/00 , G06N3/04 , G06N3/08 , G06V40/16 , G06V10/74 , G06V10/774 , G06V10/82
Abstract: 本公开提供了一种三维人脸重建模型训练和三维人脸形象生成方法及装置,涉及人工智能技术领域,具体涉及增强现实、虚拟现实、计算机视觉和深度学习等技术领域,可应用于元宇宙等场景。具体实现方案为:将获取的样本人脸图像输入三维人脸重建模型,得到坐标变换参数和样本人脸图像中的人脸参数;根据获取的样本人脸图像的人脸参数和风格化人脸图,确定样本人脸图像的三维风格化人脸形象;基于坐标变换参数,将样本人脸图像的三维风格化人脸形象变换到相机坐标系下,并对变换后的三维风格化人脸形象进行渲染,得到渲染图;根据渲染图和样本人脸图像的风格化人脸图,对三维人脸重建模型进行训练。上述技术方案,可以精准构建三维风格化人脸形象。
-
-
-
-
-
-
-
-
-