-
公开(公告)号:CN119810369A
公开(公告)日:2025-04-11
申请号:CN202411848802.8
申请日:2024-12-13
Applicant: 北京百度网讯科技有限公司
IPC: G06T17/20 , G06N3/0464 , G06N3/08 , G06T15/20
Abstract: 本公开提供了一种数字人重建方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于数字人等场景。具体实现方案为:基于人体视频或图像构建个性化人体网格,该个性化人体网格携带该人体视频或图像中的人体特征信息;从该个性化人体网格中提取头部网格,基于该头部网格,生成对应的头部高斯表示;基于该个性化人体网格,生成对应的身体高斯表示;将该头部高斯表示和该身体高斯表示进行融合,以得到数字人的全身高斯表示。本公开能够提高数字人的人体几何形状的真实感。
-
公开(公告)号:CN119810294A
公开(公告)日:2025-04-11
申请号:CN202411786967.7
申请日:2024-12-05
Applicant: 北京百度网讯科技有限公司
IPC: G06T15/04
Abstract: 本公开提供了服饰纹理贴图生成方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于虚拟现实、数字人等场景。具体实现方案为:基于服饰参考图得到服饰特征;根据与该服饰参考图关联的坐标映射图和纹理掩码图得到纹理特征;其中,该坐标映射图包括与该服饰参考图关联的服饰模型展开的纹理贴图在该服饰模型中对应的坐标;该纹理掩码图包括基于该服饰模型展开的纹理贴图中的透明通道生成的图像;基于该服饰特征和该纹理特征,生成服饰纹理贴图。
-
公开(公告)号:CN119722880A
公开(公告)日:2025-03-28
申请号:CN202411783331.7
申请日:2024-12-05
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了三维模型的驱动方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于三维动画等场景。具体实现方案为:获取动作视频以及三维模型的初始点云;动作视频中包括动作图像;根据动作图像以及初始点云,生成动作图像对应的动作点云;动作点云描述的动作与动作图像描述的动作一致;根据各个动作图像对应的动作点云,确定三维模型的动作点云序列;动作点云序列用于三维模型的驱动处理。
-
公开(公告)号:CN119625180A
公开(公告)日:2025-03-14
申请号:CN202411747365.0
申请日:2024-11-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了基于大模型的三维对象生成方法、装置、设备及智能体,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于虚拟现实、3D服装生成等场景。该基于大模型的三维对象生成方法包括:对用于目标对象的初始图进行形态转换,得到表征具有指定形态的对象形态图;利用视觉大模型对初始图的对象纹理特征与对象形态图进行特征融合,得到基础目标对象图;对基础目标对象图进行多视角转换,得到与多个预设视角相关的多个扩展目标对象图;以及基于多个扩展目标对象图生成三维对象。
-
公开(公告)号:CN117746133B
公开(公告)日:2024-09-24
申请号:CN202311764274.3
申请日:2023-12-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V20/64 , G06V10/82 , G06N3/0455
Abstract: 本公开提供了目标检测方法、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:提取多视角图像的图像特征,对BEV空间中的预设参考点进行位置编码,得到初始化的稀疏查询,根据初始化的稀疏查询和图像特征确定输入数据,并将输入数据输入至Transformer网络的解码器,得到目标BEV特征,解码器用于对稀疏查询进行上采样,得到对应的密集查询,并基于图像特征对混合查询进行更新,更新后的混合查询用于确定目标BEV特征,基于目标BEV特征确定多视角图像的目标检测结果。
-
公开(公告)号:CN117636306A
公开(公告)日:2024-03-01
申请号:CN202311675223.3
申请日:2023-12-07
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了行驶轨迹确定、模型训练方法、装置、电子设备及介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶、自主泊车、物联网、智能交通等场景。具体实现方案为:获取针对车辆周边的目标对象配置的至少一组对象权重,对象权重表征目标对象对车辆的行驶过程的影响程度;根据环境编码向量和至少一组对象权重,对车辆的当前行驶轨迹进行调整,得到车辆的至少一个候选行驶轨迹,候选行驶轨迹具有目标评估值,环境编码向量是对车辆的周边环境信息进行编码得到的;根据至少一个候选行驶轨迹的至少一个目标评估值,确定与满足预设条件的目标评估值相对应的目标候选行驶轨迹,作为车辆的目标行驶轨迹。
-
公开(公告)号:CN117541816A
公开(公告)日:2024-02-09
申请号:CN202311436010.5
申请日:2023-10-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/52 , G06V10/764 , G06V10/82 , G06V10/80 , G06N3/0464
Abstract: 本公开提供了目标检测方法、装置和电子设备,涉及人工智能技术,尤其涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取多视图图像的多尺度特征图;确定各尺度特征图在空间中的三维坐标信息,其中,每一尺度特征图的所述三维坐标信息包括该尺度特征图中每一像素点在空间中对应的多个点的三维坐标;将每一尺度特征图和该尺度特征图的三维坐标信息进行编码,根据编码结果确定多尺度特征图的三维位置感知特征;基于所述多尺度特征图的三维位置感知特征进行解码,得到多视图图像中的对象的对象类别和位置信息。有助于提高3D目标检测的准确度。
-
公开(公告)号:CN117315334A
公开(公告)日:2023-12-29
申请号:CN202311161247.7
申请日:2023-09-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/82 , G06V10/762 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开提供了图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于图像处理等场景。具体实现方案为:对待处理图像进行特征提取,得到图像特征;对图像特征进行聚类,得到图像聚类标记特征;基于图像聚类标记特征和任务提示标记特征,得到文本提示特征,任务提示标记特征用于表征与图像分类任务相关的知识;以及基于文本提示特征和待处理图像,得到待处理图像的图像分类结果。
-
公开(公告)号:CN115860102B
公开(公告)日:2023-05-23
申请号:CN202310133636.2
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0895 , G06N3/096 , G06N3/0464
Abstract: 本公开提供了一种自动驾驶感知模型的预训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:获取至少两种模态的训练样本;其中,所述训练样本包括无标注数据;按照设定的自监督学习顺序,采用至少两种模态的无标注数据,对感知模型中的特征提取网络,进行单一模态的模态内自监督学习和模态间自监督学习,以形成预训练完成的感知模型。本方案为自动驾驶感知模型提供了一种预训练方案,能够采用无标注数据,分别进行模态内自监督学习和模态间自监督学习,实现自动驾驶感知模型的预训练。
-
公开(公告)号:CN115879060A
公开(公告)日:2023-03-31
申请号:CN202310137829.5
申请日:2023-02-14
Applicant: 北京百度网讯科技有限公司
IPC: G06F18/25 , G01S13/86 , B60W60/00 , G06F123/02
Abstract: 本公开提供了一种基于多模态的自动驾驶感知方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:从主车和路侧设备获取多模态输入信息;分别提取所述多模态输入信息的各模态特征;将所述各模态特征分别映射到全局3D空间,得到各模态全局特征;对所述各模态全局特征进行特征融合,得到所述全局3D空间的多模态融合特征;基于所述多模态融合特征实现自动驾驶感知。本公开可以提升自动驾驶感知精度。
-
-
-
-
-
-
-
-
-