-
公开(公告)号:CN118229815B
公开(公告)日:2025-05-09
申请号:CN202410317079.4
申请日:2024-03-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种视频生成方法,涉及人工智能技术领域,尤其涉及深度学习和计算机视觉技术领域,可应用于人工智能视频生成场景。具体实现方案为:基于图像特征、文本特征、以及图像中目标对象的动作特征,生成目标对象的动作序列;确定动作序列的运动控制特征,运动控制特征用于控制所生成的视频中的目标对象的动作与动作序列一致;以及基于图像特征、文本特征以及运动控制特征,生成目标视频。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。
-
公开(公告)号:CN119810369A
公开(公告)日:2025-04-11
申请号:CN202411848802.8
申请日:2024-12-13
Applicant: 北京百度网讯科技有限公司
IPC: G06T17/20 , G06N3/0464 , G06N3/08 , G06T15/20
Abstract: 本公开提供了一种数字人重建方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于数字人等场景。具体实现方案为:基于人体视频或图像构建个性化人体网格,该个性化人体网格携带该人体视频或图像中的人体特征信息;从该个性化人体网格中提取头部网格,基于该头部网格,生成对应的头部高斯表示;基于该个性化人体网格,生成对应的身体高斯表示;将该头部高斯表示和该身体高斯表示进行融合,以得到数字人的全身高斯表示。本公开能够提高数字人的人体几何形状的真实感。
-
公开(公告)号:CN119810294A
公开(公告)日:2025-04-11
申请号:CN202411786967.7
申请日:2024-12-05
Applicant: 北京百度网讯科技有限公司
IPC: G06T15/04
Abstract: 本公开提供了服饰纹理贴图生成方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于虚拟现实、数字人等场景。具体实现方案为:基于服饰参考图得到服饰特征;根据与该服饰参考图关联的坐标映射图和纹理掩码图得到纹理特征;其中,该坐标映射图包括与该服饰参考图关联的服饰模型展开的纹理贴图在该服饰模型中对应的坐标;该纹理掩码图包括基于该服饰模型展开的纹理贴图中的透明通道生成的图像;基于该服饰特征和该纹理特征,生成服饰纹理贴图。
-
公开(公告)号:CN119722880A
公开(公告)日:2025-03-28
申请号:CN202411783331.7
申请日:2024-12-05
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了三维模型的驱动方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于三维动画等场景。具体实现方案为:获取动作视频以及三维模型的初始点云;动作视频中包括动作图像;根据动作图像以及初始点云,生成动作图像对应的动作点云;动作点云描述的动作与动作图像描述的动作一致;根据各个动作图像对应的动作点云,确定三维模型的动作点云序列;动作点云序列用于三维模型的驱动处理。
-
公开(公告)号:CN119625180A
公开(公告)日:2025-03-14
申请号:CN202411747365.0
申请日:2024-11-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了基于大模型的三维对象生成方法、装置、设备及智能体,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于虚拟现实、3D服装生成等场景。该基于大模型的三维对象生成方法包括:对用于目标对象的初始图进行形态转换,得到表征具有指定形态的对象形态图;利用视觉大模型对初始图的对象纹理特征与对象形态图进行特征融合,得到基础目标对象图;对基础目标对象图进行多视角转换,得到与多个预设视角相关的多个扩展目标对象图;以及基于多个扩展目标对象图生成三维对象。
-
公开(公告)号:CN119031203A
公开(公告)日:2024-11-26
申请号:CN202411266270.7
申请日:2024-09-10
Applicant: 北京百度网讯科技有限公司
IPC: H04N21/81 , H04N21/234 , H04N21/2343 , H04N21/44 , H04N21/4402 , G06V40/10 , G06V40/16
Abstract: 本申请公开了视频生成方法、装置、电子设备及存储介质,涉人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于AIGC、数字人、智能电商等场景。实现方案为:获取驱动视频中驱动对象的姿态热图序列;对姿态热图序列进行姿态编码,得到驱动对象的第一姿态特征,在第一姿态特征中添加噪声,得到第二姿态特征;获取展示有目标对象的目标图像,并对目标图像进行外观编码得到目标对象的第一外观特征;获取驱动视频中驱动对象的手部关键点信息,并根据手部关键点信息,获取驱动对象的手部特征;根据第二姿态特征、第一外观特征及手部特征进行特征融合,得到第一融合特征;对第一融合特征进行解码,生成展示有目标对象的目标视频。
-
公开(公告)号:CN115482395B
公开(公告)日:2024-02-20
申请号:CN202211219250.5
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06N20/00
Abstract: 本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于人脸识别场景下。具体实现方案为:根据样本图像的第一特征和第一深度学习模型的第一分类网络的权重信息,确定注意力特征,其中,第一特征是利用第一深度学习模型的第一特征提取网络处理样本图像得到的;将注意力特征输入第一分类网络,得到注意力增强后的分类结果;以及根据注意力增强后的分类结果,训练第二深度学习模型。本公开还提供了一种深度学习模型的训练方法、图像分类方法、装置、电子设备和存储介质。
-
公开(公告)号:CN115761839A
公开(公告)日:2023-03-07
申请号:CN202211296157.4
申请日:2022-10-21
Applicant: 北京百度网讯科技有限公司
IPC: G06V40/16 , G06V40/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/09
Abstract: 本公开提供了人脸活体检测模型的训练方法、人脸活体检测方法及装置,涉及人工智能技术领域,尤其涉及涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:根据样本人脸图像,确定第一模型输出的第一特征;根据第一特征,利用第一损失函数,确定第一损失值;根据第一特征和样本人脸图像对应的第一文本描述,确定第二模型输出的第二特征;根据第二特征,利用第二损失函数,确定第二损失值;以及根据第一损失值和第二损失值,对第一模型进行训练,以得到人脸活体检测模型。本公开实施例中,通过图像模态和文本模态监督模型训练,利用文本模态提供的细粒度语义信息的监督,提升人脸活体检测模型的泛化性。
-
公开(公告)号:CN115482396A
公开(公告)日:2022-12-16
申请号:CN202211219252.4
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域。具体实现方案为:将样本图像输入第一深度学习模型的第一特征提取网络,得到样本图像的第一特征;对样本图像的第二特征进行转换,得到转换后的第二特征,其中,第一特征的维度与转换后的第二特征的维度之间的差异小于或等于预设维度差异阈值;将转换后的第二特征输入第一深度学习模型的第一分类网络,得到转换后的分类结果;以及根据转换后的分类结果,训练第一深度学习模型。本公开还提供了一种深度学习模型的训练装置、图像分类装置、电子设备和存储介质。
-
公开(公告)号:CN115359574A
公开(公告)日:2022-11-18
申请号:CN202210834250.X
申请日:2022-07-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种人脸活体检测及相应模型的训练方法、装置及存储介质。涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于人脸识别等场景。具体实现方案为:对待检测人脸图像进行预处理,获取目标人脸图像;所述目标人脸图像中人脸区域的占比大于所述待检测人脸图像中人脸区域的占比;获取所述目标人脸图像的全局特征;基于全局特征和预建立的特征库,对所述待检测人脸图像进行人脸活体检测。本公开的技术,能够有效地提高人脸活体检测的准确性。
-
-
-
-
-
-
-
-
-