-
公开(公告)号:CN115879060B
公开(公告)日:2023-07-04
申请号:CN202310137829.5
申请日:2023-02-14
Applicant: 北京百度网讯科技有限公司
IPC: G06F18/25 , G01S13/86 , B60W60/00 , G06F123/02
Abstract: 本公开提供了一种基于多模态的自动驾驶感知方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:从主车和路侧设备获取多模态输入信息;分别提取所述多模态输入信息的各模态特征;将所述各模态特征分别映射到全局3D空间,得到各模态全局特征;对所述各模态全局特征进行特征融合,得到所述全局3D空间的多模态融合特征;基于所述多模态融合特征实现自动驾驶感知。本公开可以提升自动驾驶感知精度。
-
公开(公告)号:CN116300928A
公开(公告)日:2023-06-23
申请号:CN202310263862.2
申请日:2023-03-17
Applicant: 北京百度网讯科技有限公司
IPC: G05D1/02
Abstract: 本公开提供了一种针对车辆的数据处理方法和数据处理模型的训练方法、装置、设备、介质和自动驾驶车辆,涉及人工智能领域,具体涉及自动驾驶和计算机视觉等技术领域。针对车辆的数据处理方法的具体实现方案为:采用感知网络对场景数据和车辆的运动数据进行编码,得到车辆所在场景中环境要素的要素特征;场景数据基于车辆上的传感器采集的原始数据得到;采用聚合网络对要素特征和与车辆所在位置对应的地图数据进行聚合,得到聚合特征;以及采用解码网络对聚合特征进行解码,得到针对车辆的预测结果,其中,预测结果包括车辆的预测轨迹信息,以及以下信息中的至少之一:环境要素的结构化信息、环境要素在未来时刻的预测位置信息。
-
公开(公告)号:CN116071625B
公开(公告)日:2023-06-02
申请号:CN202310206397.9
申请日:2023-03-07
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/778 , G06V10/766 , G06V10/774
Abstract: 本申请提供了一种深度学习模型的训练方法、目标检测方法及装置,涉及计算机视觉、深度学习。该训练方法具体实现方案为:利用第一深度学习模型对样本图像进行处理,得到第一图像特征;并根据初始位置分布特征图和第一图像特征,得到第一特征图。利用第二深度学习模型对样本图像进行处理,得到第二图像特征;并根据初始位置分布特征图和第二图像特征,得到第二特征图。利用第一深度学习模型对样本图像进行目标检测,得到第一检测结果。基于目标损失函数,根据第一检测结果、第一特征图和第二特征图,调整第一深度学习模型的模型参数和初始位置分布特征图,得到与样本图像对应的目标位置分布特征图和经训练的第一深度学习模型。
-
公开(公告)号:CN115035538B
公开(公告)日:2023-04-07
申请号:CN202210685043.2
申请日:2022-03-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。
-
公开(公告)号:CN115860102A
公开(公告)日:2023-03-28
申请号:CN202310133636.2
申请日:2023-02-10
Applicant: 北京百度网讯科技有限公司
IPC: G06N3/0895 , G06N3/096 , G06N3/0464
Abstract: 本公开提供了一种自动驾驶感知模型的预训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:获取至少两种模态的训练样本;其中,所述训练样本包括无标注数据;按照设定的自监督学习顺序,采用至少两种模态的无标注数据,对感知模型中的特征提取网络,进行单一模态的模态内自监督学习和模态间自监督学习,以形成预训练完成的感知模型。本方案为自动驾驶感知模型提供了一种预训练方案,能够采用无标注数据,分别进行模态内自监督学习和模态间自监督学习,实现自动驾驶感知模型的预训练。
-
公开(公告)号:CN114372477B
公开(公告)日:2022-06-10
申请号:CN202210275278.4
申请日:2022-03-21
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06K9/62 , G06V30/148 , G06V10/774
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。
-
公开(公告)号:CN117315334B
公开(公告)日:2025-03-28
申请号:CN202311161247.7
申请日:2023-09-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/82 , G06V10/762 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开提供了图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于图像处理等场景。具体实现方案为:对待处理图像进行特征提取,得到图像特征;对图像特征进行聚类,得到图像聚类标记特征;基于图像聚类标记特征和任务提示标记特征,得到文本提示特征,任务提示标记特征用于表征与图像分类任务相关的知识;以及基于文本提示特征和待处理图像,得到待处理图像的图像分类结果。
-
公开(公告)号:CN117541816B
公开(公告)日:2025-03-04
申请号:CN202311436010.5
申请日:2023-10-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/52 , G06V10/764 , G06V10/82 , G06V10/80 , G06N3/0464
Abstract: 本公开提供了目标检测方法、装置和电子设备,涉及人工智能技术,尤其涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取多视图图像的多尺度特征图;确定各尺度特征图在空间中的三维坐标信息,其中,每一尺度特征图的所述三维坐标信息包括该尺度特征图中每一像素点在空间中对应的多个点的三维坐标;将每一尺度特征图和该尺度特征图的三维坐标信息进行编码,根据编码结果确定多尺度特征图的三维位置感知特征;基于所述多尺度特征图的三维位置感知特征进行解码,得到多视图图像中的对象的对象类别和位置信息。有助于提高3D目标检测的准确度。
-
公开(公告)号:CN117612121B
公开(公告)日:2025-01-24
申请号:CN202311638811.X
申请日:2023-12-01
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/56 , G06V10/80 , G06V10/82 , G06V10/25 , G06V10/764 , G06V20/70 , G06T7/73 , G06V10/766 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本公开提供了一种目标检测方法、深度学习模型的训练方法、装置、电子设备、存储介质、程序产品以及自动驾驶车辆,涉及人工智能技术领域,尤其涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:对待检测图像序列中的待检测图像进行特征提取,得到图像特征序列;将图像特征序列和查询矩阵进行视觉交互处理,得到鸟瞰特征;对鸟瞰特征进行目标检测,得到初始目标检测结果;基于初始目标检测结果,对查询矩阵中的查询元素进行删除,得到轻量化的查询矩阵;以及基于轻量化的查询矩阵和图像特征序列,得到目标检测结果。
-
公开(公告)号:CN119131735A
公开(公告)日:2024-12-13
申请号:CN202411337422.8
申请日:2024-09-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种车辆定位方法、装置、设备、介质、程序产品及自动驾驶车辆,涉及人工智能领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶、自动泊车等场景。车辆定位方法包括:对采集的道路图像进行特征提取,得到图像特征;基于图像特征进行车道线排序检测,得到车道线排序信息,车道线排序信息表征道路图像中至少一个车道线的排列顺序;基于车道线排序特征和图像特征进行车道线检测,得到车道线信息,车道线排序特征表征车道线排序信息;基于车道线信息进行车辆定位,得到与目标车辆相关的目标车道线信息。
-
-
-
-
-
-
-
-
-