目标检测方法、模型训练方法、装置、设备及存储介质

    公开(公告)号:CN117746133A

    公开(公告)日:2024-03-22

    申请号:CN202311764274.3

    申请日:2023-12-20

    Abstract: 本公开提供了目标检测方法、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:提取多视角图像的图像特征,对BEV空间中的预设参考点进行位置编码,得到初始化的稀疏查询,根据初始化的稀疏查询和图像特征确定输入数据,并将输入数据输入至Transformer网络的解码器,得到目标BEV特征,解码器用于对稀疏查询进行上采样,得到对应的密集查询,并基于图像特征对混合查询进行更新,更新后的混合查询用于确定目标BEV特征,基于目标BEV特征确定多视角图像的目标检测结果。

    三维对象检测方法及装置、电子设备和存储介质

    公开(公告)号:CN117542042A

    公开(公告)日:2024-02-09

    申请号:CN202311553137.5

    申请日:2023-11-20

    Abstract: 本公开提供了一种三维对象检测方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、虚拟现实、深度学习、大模型等技术领域,可应用于自动驾驶等场景。三维对象检测方法包括:提取待检测图像的特征图;将特征图投影至目标三维空间中,以得到目标三维空间的第一空间特征;基于目标三维空间中的参考点在特征图中的投影点,对特征图进行采样,以得到目标三维空间的第二空间特征;对第一空间特征和第二空间特征进行融合,以得到融合空间特征;以及基于融合空间特征,确定待检测图像的三维对象检测结果。

    基于视觉转换器的图像处理方法、训练方法和电子设备

    公开(公告)号:CN115761437B

    公开(公告)日:2024-02-06

    申请号:CN202211400729.9

    申请日:2022-11-09

    Abstract: 本公开提供了一种基于视觉转换器的图像处理方法、训练方法和电子设备,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。该方法包括:确定待处理图像的多个原图像标记;通过视觉转换器模型,将所述多个原图像标记拆分成至少两个重要图像标记和至少两个次要图像标记;通过所述视觉转换器模型,对所述至少两个重要图像标记进行聚合得到新的重要图像标记,并对所述至少两个次要图像标记进行聚合得到新的次要图像标记;通过所述视觉转换器模型,根据所述新的重要图像标记和所述新的次要图像标记进行图像处理,得到图像处理结果。通过上述技术方案能够提高图像处理的准确性。

    多视角图像的视角转换方法、装置、设备和介质

    公开(公告)号:CN115866229A

    公开(公告)日:2023-03-28

    申请号:CN202310168244.X

    申请日:2023-02-14

    Abstract: 本公开提供了一种多视角图像的视角转换方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:提取多视角图像的图像特征得到各视角图像的特征图,将特征图作为值;根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键;根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在局部3D坐标系下的局部查询;将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在全局坐标系下的图像特征。本公开可以降低transformer网络的学习难度,从而提高视角转换精度。

    目标识别方法、目标识别模型训练方法及装置

    公开(公告)号:CN115082690A

    公开(公告)日:2022-09-20

    申请号:CN202210822810.X

    申请日:2022-07-12

    Abstract: 本公开提供了一种目标识别方法、目标识别模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能领域,尤其涉及图像处理、计算机视觉和深度学习技术领域,可应用于3D视觉、虚拟现实等场景。实现方案为:初始化待训练的学生模型并确定经训练的教师模型;获取点云数据、点云数据中的每个点所对应的第一标签以及点云数据所对应的第二标签,第一标签用于标识该点与点云数据所对应的待识别目标所在区域的关系,第二标签为预设的目标识别结果;将点云数据输入学生模型,以及将点云数据和第一标签输入教师模型,从而基于知识蒸馏方法对该学生模型进行训练。

    目标对象检测方法、装置、电子设备和存储介质

    公开(公告)号:CN114419519A

    公开(公告)日:2022-04-29

    申请号:CN202210297747.2

    申请日:2022-03-25

    Abstract: 本公开提供了一种目标对象检测方法、装置、电子设备、存储介质和计算机程序产品,涉及人工智能领域,尤其涉及计算机视觉、图像识别和深度学习技术领域,可用于智慧城市和智能交通场景。具体实现方案为:根据视频流中的当前帧图像、当前帧图像的关联语义信息以及当前帧图像的深度信息,确定当前帧图像的多个多尺度特征图;对多个多尺度特征图进行多尺度融合处理,得到多个多尺度融合特征图;根据多个多尺度融合特征图和当前帧图像的第一全局上下文特征,确定时空融合特征图;以及根据时空融合特征图,检测当前帧图像中的目标对象。

    文本识别模型的训练方法、文本识别方法及装置

    公开(公告)号:CN114372477A

    公开(公告)日:2022-04-19

    申请号:CN202210275278.4

    申请日:2022-03-21

    Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。

Patent Agency Ranking