-
公开(公告)号:CN117542042B
公开(公告)日:2025-03-11
申请号:CN202311553137.5
申请日:2023-11-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种三维对象检测方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。三维对象检测方法包括:提取待检测图像的特征图;将特征图投影至目标三维空间中,以得到目标三维空间的第一空间特征;基于目标三维空间中的参考点在特征图中的投影点,对特征图进行采样,以得到目标三维空间的第二空间特征;对第一空间特征和第二空间特征进行融合,以得到融合空间特征;以及基于融合空间特征,确定待检测图像的三维对象检测结果。
-
公开(公告)号:CN114550313B
公开(公告)日:2024-08-06
申请号:CN202210152340.0
申请日:2022-02-18
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、神经网络及其训练方法、设备和介质,涉及人工智能领域,具体涉及计算机视觉技术、图像处理技术和深度学习技术。神经网络包括与多个模态对应的多个分支网络,分支网络包括:输入子网络,被配置为在对应的模态的输入图像中提取第一特征;第一交互子网络被配置为:针对多个模态中的每一个模态确定第一注意力分数;基于多个模态各自的第一注意力分数调整对应的模态的第一注意力分数;基于调整后的对应的模态的第一注意力分数对对应的模态的第一特征进行处理以得到第二特征;输出子网络被配置为基于对应的模态的第二特征得到第一结果。神经网络还包括:综合输出子网络被配置为基于模态的多个第二特征,得到第二结果。
-
公开(公告)号:CN114663952A
公开(公告)日:2022-06-24
申请号:CN202210315075.3
申请日:2022-03-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V40/16 , G06V10/42 , G06V10/44 , G06V10/82 , G06V10/774 , G06V10/764 , G06V10/80 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种对象分类方法,涉及人工智能技术领域,尤其涉及深度学习、图像识别和计算机视觉技术领域。具体实现方案为:根据目标图像的初始向量特征图,得到局部特征图和全局特征图;根据局部特征图和全局特征图,得到融合特征图;以及根据融合特征图,对目标图像中的目标对象进行分类,得到分类结果。本公开还提供了一种对象分类方法、深度学习模型的训练方法、装置、电子设备和存储介质。
-
公开(公告)号:CN114581751A
公开(公告)日:2022-06-03
申请号:CN202210218135.X
申请日:2022-03-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/82 , G06V10/774 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本公开提供了一种图像识别模型的训练方法、图像识别方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习和计算机视觉技术领域。其中,图像识别模型包括多个识别网络,图像识别模型的训练方法的具体实现方案为:将样本图像输入多个识别网络,由多个识别网络分别输出针对样本图像的分数向量,得到多个分数向量;根据多个分数向量确定图像识别模型的第一损失值;以及根据第一损失值,对图像识别模型进行训练,其中,第一损失值与多个分数向量彼此之间的差异正相关。
-
公开(公告)号:CN114078274A
公开(公告)日:2022-02-22
申请号:CN202111272607.1
申请日:2021-10-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了人脸图像检测方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及自然语言处理、计算机视觉、深度学习技术领域。具体实现方案为:将待检测的人脸图像的图像向量分别输入第一语义表示模型和第二语义表示模型,以获取其中两个第i阶段网络输出的第一特征向量和第二特征向量;根据第一特征向量和第二特征向量进行特征融合处理,并将融合后第一特征向量和融合后第二特征向量输入对应模型中的第i+1阶段网络;根据两个第N阶段网络输出的第一检测结果和第二检测结果,确定人脸图像的检测结果。从而能够结合多个语义表示模型提取特征,且对提取到的特征进行多个层级上的融合以及真实伪造判断,提高人脸伪造检测的准确度。
-
公开(公告)号:CN117746133B
公开(公告)日:2024-09-24
申请号:CN202311764274.3
申请日:2023-12-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V20/64 , G06V10/82 , G06N3/0455
Abstract: 本公开提供了目标检测方法、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:提取多视角图像的图像特征,对BEV空间中的预设参考点进行位置编码,得到初始化的稀疏查询,根据初始化的稀疏查询和图像特征确定输入数据,并将输入数据输入至Transformer网络的解码器,得到目标BEV特征,解码器用于对稀疏查询进行上采样,得到对应的密集查询,并基于图像特征对混合查询进行更新,更新后的混合查询用于确定目标BEV特征,基于目标BEV特征确定多视角图像的目标检测结果。
-
公开(公告)号:CN117636306A
公开(公告)日:2024-03-01
申请号:CN202311675223.3
申请日:2023-12-07
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了行驶轨迹确定、模型训练方法、装置、电子设备及介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶、自主泊车、物联网、智能交通等场景。具体实现方案为:获取针对车辆周边的目标对象配置的至少一组对象权重,对象权重表征目标对象对车辆的行驶过程的影响程度;根据环境编码向量和至少一组对象权重,对车辆的当前行驶轨迹进行调整,得到车辆的至少一个候选行驶轨迹,候选行驶轨迹具有目标评估值,环境编码向量是对车辆的周边环境信息进行编码得到的;根据至少一个候选行驶轨迹的至少一个目标评估值,确定与满足预设条件的目标评估值相对应的目标候选行驶轨迹,作为车辆的目标行驶轨迹。
-
公开(公告)号:CN117541816A
公开(公告)日:2024-02-09
申请号:CN202311436010.5
申请日:2023-10-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/52 , G06V10/764 , G06V10/82 , G06V10/80 , G06N3/0464
Abstract: 本公开提供了目标检测方法、装置和电子设备,涉及人工智能技术,尤其涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取多视图图像的多尺度特征图;确定各尺度特征图在空间中的三维坐标信息,其中,每一尺度特征图的所述三维坐标信息包括该尺度特征图中每一像素点在空间中对应的多个点的三维坐标;将每一尺度特征图和该尺度特征图的三维坐标信息进行编码,根据编码结果确定多尺度特征图的三维位置感知特征;基于所述多尺度特征图的三维位置感知特征进行解码,得到多视图图像中的对象的对象类别和位置信息。有助于提高3D目标检测的准确度。
-
公开(公告)号:CN117315334A
公开(公告)日:2023-12-29
申请号:CN202311161247.7
申请日:2023-09-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/764 , G06V10/82 , G06V10/762 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本公开提供了图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于图像处理等场景。具体实现方案为:对待处理图像进行特征提取,得到图像特征;对图像特征进行聚类,得到图像聚类标记特征;基于图像聚类标记特征和任务提示标记特征,得到文本提示特征,任务提示标记特征用于表征与图像分类任务相关的知识;以及基于文本提示特征和待处理图像,得到待处理图像的图像分类结果。
-
公开(公告)号:CN114863229B
公开(公告)日:2025-04-04
申请号:CN202210315149.3
申请日:2022-03-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/80 , G06V10/774 , G06V10/764 , G06V10/82 , G06V40/16 , G06N3/045 , G06N3/08
Abstract: 本公开提供了一种图像分类方法和图像分类模型的训练方法,涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域。其中,图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络。图像分类方法的具体实现方案为:将待分类图像切分为多个图像块,得到图像块序列;采用自注意力编码器对图像块序列进行自注意力编码,得到第一特征图序列;第一特征图序列包括分别针对多个图像块的多个特征图;采用全局编码网络提取第一特征图序列的全局特征,得到全局特征图;采用第一局部编码网络提取第一特征图序列的第一局部特征,得到第一局部特征图;以及将全局特征图和第一局部特征图输入预测网络,得到待分类图像的分类信息。
-
-
-
-
-
-
-
-
-