-
公开(公告)号:CN117746133A
公开(公告)日:2024-03-22
申请号:CN202311764274.3
申请日:2023-12-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V20/64 , G06V10/82 , G06N3/0455
Abstract: 本公开提供了目标检测方法、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:提取多视角图像的图像特征,对BEV空间中的预设参考点进行位置编码,得到初始化的稀疏查询,根据初始化的稀疏查询和图像特征确定输入数据,并将输入数据输入至Transformer网络的解码器,得到目标BEV特征,解码器用于对稀疏查询进行上采样,得到对应的密集查询,并基于图像特征对混合查询进行更新,更新后的混合查询用于确定目标BEV特征,基于目标BEV特征确定多视角图像的目标检测结果。
-
公开(公告)号:CN117542042A
公开(公告)日:2024-02-09
申请号:CN202311553137.5
申请日:2023-11-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种三维对象检测方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。三维对象检测方法包括:提取待检测图像的特征图;将特征图投影至目标三维空间中,以得到目标三维空间的第一空间特征;基于目标三维空间中的参考点在特征图中的投影点,对特征图进行采样,以得到目标三维空间的第二空间特征;对第一空间特征和第二空间特征进行融合,以得到融合空间特征;以及基于融合空间特征,确定待检测图像的三维对象检测结果。
-
公开(公告)号:CN115761437B
公开(公告)日:2024-02-06
申请号:CN202211400729.9
申请日:2022-11-09
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/82 , G06V10/26 , G06V10/774 , G06V10/762 , G06V10/80
Abstract: 本公开提供了一种基于视觉转换器的图像处理方法、训练方法和电子设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。该方法包括:确定待处理图像的多个原图像标记;通过视觉转换器模型,将所述多个原图像标记拆分成至少两个重要图像标记和至少两个次要图像标记;通过所述视觉转换器模型,对所述至少两个重要图像标记进行聚合得到新的重要图像标记,并对所述至少两个次要图像标记进行聚合得到新的次要图像标记;通过所述视觉转换器模型,根据所述新的重要图像标记和所述新的次要图像标记进行图像处理,得到图像处理结果。通过上述技术方案能够提高图像处理的准确性。
-
公开(公告)号:CN116320216A
公开(公告)日:2023-06-23
申请号:CN202310252631.1
申请日:2023-03-15
Applicant: 北京百度网讯科技有限公司
IPC: H04N5/262 , G06T7/269 , G06V10/82 , G06V10/774 , H04N19/44
Abstract: 本公开提供了一种视频生成方法、模型的训练方法、装置、设备和介质,涉及人工智能技术领域,具体为计算机视觉、深度学习等技术领域,可应用于AIGC等场景。具体实现方案为:获取参考图像和文本,其中,所述参考图像和所述文本之间语义相关;利用预先训练的视频特征生成模型,根据所述参考图像的特征和所述文本的特征生成目标视频特征序列;利用视频解码器对所述目标视频特征序列进行解码,生成目标视频。本公开可以提高生成视频的质量。
-
公开(公告)号:CN115866229A
公开(公告)日:2023-03-28
申请号:CN202310168244.X
申请日:2023-02-14
Applicant: 北京百度网讯科技有限公司
IPC: H04N13/261 , H04N13/156 , G06V20/56 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/047 , G06N3/0985
Abstract: 本公开提供了一种多视角图像的视角转换方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:提取多视角图像的图像特征得到各视角图像的特征图,将特征图作为值;根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键;根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在局部3D坐标系下的局部查询;将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在全局坐标系下的图像特征。本公开可以降低transformer网络的学习难度,从而提高视角转换精度。
-
公开(公告)号:CN115082690A
公开(公告)日:2022-09-20
申请号:CN202210822810.X
申请日:2022-07-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种目标识别方法、目标识别模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能领域,尤其涉及图像处理、计算机视觉和深度学习技术领域,可应用于3D视觉、虚拟现实等场景。实现方案为:初始化待训练的学生模型并确定经训练的教师模型;获取点云数据、点云数据中的每个点所对应的第一标签以及点云数据所对应的第二标签,第一标签用于标识该点与点云数据所对应的待识别目标所在区域的关系,第二标签为预设的目标识别结果;将点云数据输入学生模型,以及将点云数据和第一标签输入教师模型,从而基于知识蒸馏方法对该学生模型进行训练。
-
公开(公告)号:CN114912629A
公开(公告)日:2022-08-16
申请号:CN202210605586.9
申请日:2022-03-08
Applicant: 北京百度网讯科技有限公司
IPC: G06N20/00 , G06V10/40 , G06V10/774 , G06V10/80 , G06V20/00
Abstract: 本公开提供了一种联合感知模型训练、联合感知方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像识别和深度学习技术。具体实现方案为:获取样本图像和样本图像的感知标签;获取预设的联合感知模型;联合感知模型包括特征提取网络和联合感知网络;通过特征提取网络对样本图像进行特征提取,得到目标样本特征;通过联合感知网络根据目标样本特征进行联合感知,得到感知预测结果;根据感知预测结果和感知标签,对预设的联合感知模型进行训练;其中,联合感知包括执行至少两种感知任务。根据本公开的技术,减少了联合感知过程的数据运算量,提高了计算效率。
-
公开(公告)号:CN114332590B
公开(公告)日:2022-06-17
申请号:CN202210218587.8
申请日:2022-03-08
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种联合感知模型训练、联合感知方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像识别和深度学习技术。具体实现方案为:获取样本图像和样本图像的感知标签;获取预设的联合感知模型;联合感知模型包括特征提取网络和联合感知网络;通过特征提取网络对样本图像进行特征提取,得到目标样本特征;通过联合感知网络根据目标样本特征进行联合感知,得到感知预测结果;根据感知预测结果和感知标签,对预设的联合感知模型进行训练;其中,联合感知包括执行至少两种感知任务。根据本公开的技术,减少了联合感知过程的数据运算量,提高了计算效率。
-
公开(公告)号:CN114419519A
公开(公告)日:2022-04-29
申请号:CN202210297747.2
申请日:2022-03-25
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种目标对象检测方法、装置、电子设备、存储介质和计算机程序产品,涉及人工智能领域,尤其涉及计算机视觉、图像识别和深度学习技术领域,可用于智慧城市和智能交通场景。具体实现方案为:根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息,确定当前帧图像的多个多尺度特征图;对多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图;根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征,确定时空融合特征图;以及根据时空融合特征图,检测当前帧图像中的目标对象。
-
公开(公告)号:CN114372477A
公开(公告)日:2022-04-19
申请号:CN202210275278.4
申请日:2022-03-21
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06K9/62 , G06V30/148 , G06V10/774
Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。
-
-
-
-
-
-
-
-
-