-
公开(公告)号:CN119444977A
公开(公告)日:2025-02-14
申请号:CN202411336634.4
申请日:2024-09-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于AIGC、数字人、智能电商等场景。该方法包括:利用大模型处理包括目标对象的目标图像,得到对象描述信息,目标对象具有纹理信息;利用纹理生成式大模型处理目标图像和表征三维对象的对象形态的待处理图像,得到具有目标纹理信息的目标三维对象,三维对象是基于对象描述信息确定的,目标纹理信息与纹理信息相匹配;以及基于目标三维对象生成虚拟形象。
-
公开(公告)号:CN119207157A
公开(公告)日:2024-12-27
申请号:CN202411391751.0
申请日:2024-09-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种车位信息确定方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶、自动泊车等场景。具体实现方案为:根据车辆的采集装置采集的图像,确定车辆所在环境中的障碍物信息和车位信息;根据障碍物信息和车位信息,确定车位状态,其中,车位状态表示车位所在区域是否存在障碍物;以及响应于车位所在区域存在障碍物,根据车位区域的障碍物信息,调用大语言模型生成车位可用信息。本公开还提供了一种车位信息确定装置、电子设备和存储介质。
-
公开(公告)号:CN119131177A
公开(公告)日:2024-12-13
申请号:CN202411337959.4
申请日:2024-09-24
Applicant: 北京百度网讯科技有限公司
IPC: G06T11/00 , G06V10/40 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06V10/762 , G06N3/08
Abstract: 本公开提供了地图生成方法、训练方法、装置、电子设备、存储介质及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶、自动泊车等场景。该地图生成方法包括:获取与目标通行区域相关的环境图像和初始地图,初始地图包括初始车道线;对环境图像和初始地图进行特征融合,得到目标融合特征;基于目标融合特征更新至少一个初始车道线,得到目标地图,目标地图包括表征目标地图中的车道线与初始车道线之间差异的车道线差异属性。
-
公开(公告)号:CN116259064B
公开(公告)日:2024-05-17
申请号:CN202310259267.1
申请日:2023-03-09
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了表格结构识别方法、表格结构识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。该表格结构识别方法具体实现方案为:提取待识别表格图像的图像特征;基于注意力机制,根据预定网格线信息和图像特征,得到网格线特征,网格线特征包括与待识别表格图像的表格结构相对应的多个网格线之间的相对位置关系特征和多个网格线的结构特征;对网格线特征进行检测,得到多个网格线之间的相对位置关系和多个网格线的结构信息;基于相对位置关系和结构信息,得到表格结构。
-
公开(公告)号:CN116629315B
公开(公告)日:2024-02-20
申请号:CN202310587190.0
申请日:2023-05-23
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0455 , G06N3/0895 , G06N3/084 , G06T9/00 , G06V10/82 , G06V10/44
Abstract: 本公开提供了一种感知模型的训练方法、装置、设备和介质,涉及计算机视觉、图像处理和深度学习等技术领域,可应用于元宇宙和智慧城市等场景。具体实现方案为:采用包括目标对象的第一图像对预定编码网络进行训练;以及基于经训练的编码网络,得到感知模型;进行训练的过程包括:对第一图像进行掩码处理,得到包括第一掩码图像块和第一非掩码图像块的第一预处理图像;采用预训练图像处理模型对第一预处理图像进行处理,得到第一掩码特征和第一非掩码特征;采用预定编码网络对第一非掩码图像块进行编码,得到第二非掩码特征;基于第二非掩码特征重构得到第二掩码特征;以及根据两个非掩码特征之间的差异,以及两个掩码特征之间的差异进行训练。
-
公开(公告)号:CN116629315A
公开(公告)日:2023-08-22
申请号:CN202310587190.0
申请日:2023-05-23
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0455 , G06N3/0895 , G06N3/084 , G06T9/00 , G06V10/82 , G06V10/44
Abstract: 本公开提供了一种感知模型的训练方法、装置、设备和介质,涉及计算机视觉、图像处理和深度学习等技术领域,可应用于元宇宙和智慧城市等场景。具体实现方案为:采用包括目标对象的第一图像对预定编码网络进行训练;以及基于经训练的编码网络,得到感知模型;进行训练的过程包括:对第一图像进行掩码处理,得到包括第一掩码图像块和第一非掩码图像块的第一预处理图像;采用预训练图像处理模型对第一预处理图像进行处理,得到第一掩码特征和第一非掩码特征;采用预定编码网络对第一非掩码图像块进行编码,得到第二非掩码特征;基于第二非掩码特征重构得到第二掩码特征;以及根据两个非掩码特征之间的差异,以及两个掩码特征之间的差异进行训练。
-
公开(公告)号:CN116259064A
公开(公告)日:2023-06-13
申请号:CN202310259267.1
申请日:2023-03-09
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了表格结构识别方法、表格结构识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。该表格结构识别方法具体实现方案为:提取待识别表格图像的图像特征;基于注意力机制,根据预定网格线信息和图像特征,得到网格线特征,网格线特征包括与待识别表格图像的表格结构相对应的多个网格线之间的相对位置关系特征和多个网格线的结构特征;对网格线特征进行检测,得到多个网格线之间的相对位置关系和多个网格线的结构信息;基于相对位置关系和结构信息,得到表格结构。
-
公开(公告)号:CN115907009B
公开(公告)日:2023-05-26
申请号:CN202310147702.1
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N5/02 , G06N3/0464 , G06N3/096
Abstract: 本公开提供了一种自动驾驶感知模型的迁移方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:获取一种或多种模态的训练样本;采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。本公开提高了知识迁移形成车端模型的灵活性和多样性,提高了车端模型的准确性。
-
公开(公告)号:CN115879535B
公开(公告)日:2023-05-23
申请号:CN202310134421.2
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0895 , G06N3/084 , G06N3/096 , G06N3/0464 , G06F18/25
Abstract: 本公开提供了一种自动驾驶感知模型的训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、智慧城市等场景。该训练方法包括:获取一种或多种模态的训练样本;采用设定场景的有标注数据对感知模型进行场景化训练;采用所述训练样本对场景化后的感知模型进行半监督训练,以更新所述感知模型并形成伪标注数据,且将所述伪标注数据更新至所述训练样本中;采用训练样本,基于半监督训练后的感知模型,进行知识迁移,以形成车端模型。本公开提供的方案充分发挥了自动驾驶场景海量数据和大模型的优势。
-
公开(公告)号:CN115866229B
公开(公告)日:2023-05-05
申请号:CN202310168244.X
申请日:2023-02-14
Applicant: 北京百度网讯科技有限公司
IPC: H04N13/261 , H04N13/156 , G06V20/56 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/047 , G06N3/0985
Abstract: 本公开提供了一种多视角图像的视角转换方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:提取多视角图像的图像特征得到各视角图像的特征图,将特征图作为值;根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键;根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在局部3D坐标系下的局部查询;将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在全局坐标系下的图像特征。本公开可以降低transformer网络的学习难度,从而提高视角转换精度。
-
-
-
-
-
-
-
-
-