车位信息确定方法、装置、电子设备和存储介质

    公开(公告)号:CN119207157A

    公开(公告)日:2024-12-27

    申请号:CN202411391751.0

    申请日:2024-09-30

    Abstract: 本公开提供了一种车位信息确定方法,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶、自动泊车等场景。具体实现方案为:根据车辆的采集装置采集的图像,确定车辆所在环境中的障碍物信息和车位信息;根据障碍物信息和车位信息,确定车位状态,其中,车位状态表示车位所在区域是否存在障碍物;以及响应于车位所在区域存在障碍物,根据车位区域的障碍物信息,调用大语言模型生成车位可用信息。本公开还提供了一种车位信息确定装置、电子设备和存储介质。

    表格结构识别方法、表格结构识别模型的训练方法及装置

    公开(公告)号:CN116259064B

    公开(公告)日:2024-05-17

    申请号:CN202310259267.1

    申请日:2023-03-09

    Abstract: 本公开提供了表格结构识别方法、表格结构识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。该表格结构识别方法具体实现方案为:提取待识别表格图像的图像特征;基于注意力机制,根据预定网格线信息和图像特征,得到网格线特征,网格线特征包括与待识别表格图像的表格结构相对应的多个网格线之间的相对位置关系特征和多个网格线的结构特征;对网格线特征进行检测,得到多个网格线之间的相对位置关系和多个网格线的结构信息;基于相对位置关系和结构信息,得到表格结构。

    感知模型的训练方法、装置、设备和介质

    公开(公告)号:CN116629315B

    公开(公告)日:2024-02-20

    申请号:CN202310587190.0

    申请日:2023-05-23

    Abstract: 本公开提供了一种感知模型的训练方法、装置、设备和介质,涉及计算机视觉、图像处理和深度学习等技术领域,可应用于元宇宙和智慧城市等场景。具体实现方案为:采用包括目标对象的第一图像对预定编码网络进行训练;以及基于经训练的编码网络,得到感知模型;进行训练的过程包括:对第一图像进行掩码处理,得到包括第一掩码图像块和第一非掩码图像块的第一预处理图像;采用预训练图像处理模型对第一预处理图像进行处理,得到第一掩码特征和第一非掩码特征;采用预定编码网络对第一非掩码图像块进行编码,得到第二非掩码特征;基于第二非掩码特征重构得到第二掩码特征;以及根据两个非掩码特征之间的差异,以及两个掩码特征之间的差异进行训练。

    感知模型的训练方法、装置、设备和介质

    公开(公告)号:CN116629315A

    公开(公告)日:2023-08-22

    申请号:CN202310587190.0

    申请日:2023-05-23

    Abstract: 本公开提供了一种感知模型的训练方法、装置、设备和介质,涉及计算机视觉、图像处理和深度学习等技术领域,可应用于元宇宙和智慧城市等场景。具体实现方案为:采用包括目标对象的第一图像对预定编码网络进行训练;以及基于经训练的编码网络,得到感知模型;进行训练的过程包括:对第一图像进行掩码处理,得到包括第一掩码图像块和第一非掩码图像块的第一预处理图像;采用预训练图像处理模型对第一预处理图像进行处理,得到第一掩码特征和第一非掩码特征;采用预定编码网络对第一非掩码图像块进行编码,得到第二非掩码特征;基于第二非掩码特征重构得到第二掩码特征;以及根据两个非掩码特征之间的差异,以及两个掩码特征之间的差异进行训练。

    表格结构识别方法、表格结构识别模型的训练方法及装置

    公开(公告)号:CN116259064A

    公开(公告)日:2023-06-13

    申请号:CN202310259267.1

    申请日:2023-03-09

    Abstract: 本公开提供了表格结构识别方法、表格结构识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。该表格结构识别方法具体实现方案为:提取待识别表格图像的图像特征;基于注意力机制,根据预定网格线信息和图像特征,得到网格线特征,网格线特征包括与待识别表格图像的表格结构相对应的多个网格线之间的相对位置关系特征和多个网格线的结构特征;对网格线特征进行检测,得到多个网格线之间的相对位置关系和多个网格线的结构信息;基于相对位置关系和结构信息,得到表格结构。

    多视角图像的视角转换方法、装置、设备和介质

    公开(公告)号:CN115866229B

    公开(公告)日:2023-05-05

    申请号:CN202310168244.X

    申请日:2023-02-14

    Abstract: 本公开提供了一种多视角图像的视角转换方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:提取多视角图像的图像特征得到各视角图像的特征图,将特征图作为值;根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键;根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在局部3D坐标系下的局部查询;将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在全局坐标系下的图像特征。本公开可以降低transformer网络的学习难度,从而提高视角转换精度。

Patent Agency Ranking