手势识别方法、装置、电子设备及存储介质

    公开(公告)号:CN117275094A

    公开(公告)日:2023-12-22

    申请号:CN202311320396.3

    申请日:2023-10-11

    Abstract: 本发明提供一种手势识别方法、装置、电子设备及存储介质,该方法包括:将至少一帧图像输入手势识别模型的编码模块中,输出各图像对应的编码特征;各图像包括至少一个对象;将各图像对应的编码特征和至少一个查询特征输入手势识别模型中与图像对应的解码模块中,输出解码特征;至少一个查询特征与解码模块对应;对象和查询特征一一对应,解码特征包括通过查询特征从编码特征中查询的对应对象的手势特征;将解码特征输入手势识别模型中与图像对应的识别模块中,基于手势特征确定图像中各对象的手势类别;基于各图像中各对象的手势类别,确定各对象的手势。基于此,通过一个模型同时识别多个对象的手势,能提高手势识别的效率。

    目标检测方法、装置、设备及存储介质

    公开(公告)号:CN117237989A

    公开(公告)日:2023-12-15

    申请号:CN202311244839.5

    申请日:2023-09-25

    Abstract: 申请公开了一种目标检测方法、装置、设备及存储介质,本申请将待检测图像切分为若干个子图像;利用图像编码器提取每一子图像的图像特征,利用文本编码器提取类别集合中每一候选类别标签的语义特征,图像编码器和文本编码器以学习图像和文本之间的对齐关系为训练目标,基于文本‑图像对训练数据训练得到;将每一子图像的图像特征分别与各个候选类别标签的语义特征计算相似度,取相似度最高的目标候选类别标签作为子图像的类别标签,最终得到待检测图像的目标检测结果。本申请方案对新增类别目标进行检测时,只需要将新增类别标签添加到类别集合中即可,无需对新增类别目标额外获取标注数据及重新训练神经网络模型,降低了人力和时间开销。

    伪标签生成方法、模型训练方法、目标检测方法和设备

    公开(公告)号:CN116664979A

    公开(公告)日:2023-08-29

    申请号:CN202310654313.8

    申请日:2023-06-02

    Inventor: 盛典 林垠 殷兵

    Abstract: 本发明提供了一种伪标签生成方法、模型训练方法、目标检测方法和设备,方法包括:采用已标注的第一训练图像对构建的目标检测模型进行训练,得到第一目标检测模型,利用第一目标检测模型获取第一训练图像中已标注目标对应的目标特征,利用第一目标检测模型并辅以已标注目标对应的目标特征,生成未标注的第二训练图像的伪标签,在此基础上,采用已标注的训练图像和具有伪标签的训练图像训练得到最终的目标检测模型,进而,利用训练得到的目标检测模型对待检测图像进行目标检测。本发明针对未标注的训练图像可生成准确的伪标签,在此基础上可训练得到性能较佳的目标检测模型,进而,利用该模型对待检测图像进行目标检测,可获得较好的检测效果。

    视线估计方法、装置、电子设备和存储介质

    公开(公告)号:CN119850719A

    公开(公告)日:2025-04-18

    申请号:CN202411821607.6

    申请日:2024-12-11

    Abstract: 本发明提供一种视线估计方法、装置、电子设备和存储介质,其中方法包括:确定待估计的人脸图像,以及人脸图像中的眼部图像;对人脸图像和眼部图像进行特征提取,并基于特征提取所得到的人脸特征和眼部特征进行混合注意力交互,以及基于人脸特征进行自注意力交互,得到眼部融合特征和脸部姿态特征;基于眼部融合特征和脸部姿态特征进行视线估计,得到人脸图像对应的视线方向,克服了目前视线估计易受到各种因素干扰,导致估计结果准确性前欠佳的缺陷,通过混合注意力交互深度挖掘互补信息,并通过互补特征融合实现信息互补,在此基础上进行视线估计,不仅能够实现信息的最大利用,还能提升视线估计的精细度和准确性,能够得到准确可靠的视线方向。

    人机交互方法、装置、相关设备及计算机程序产品

    公开(公告)号:CN119428733A

    公开(公告)日:2025-02-14

    申请号:CN202411881172.4

    申请日:2024-12-19

    Abstract: 本申请公开了一种人机交互方法、装置、相关设备及计算机程序产品,涉及人工智能技术领域。其中人机交互方法包括,通过获取车内目标用户提出的交互问题,利用车内的第一摄像头拍摄来获取目标用户的影像,根据影像确定目标用户的视线方向信息,从而能够更好地理解用户的意图和需求。利用第一摄像头确定目标用户的视线方向信息,并据此调整第二摄像头的视角,并获取第二摄像头拍摄的车外图像,使得系统能够看到用户所关注的对象或场景,并通过调用多模态大模型,结合车外图像和用户的交互问题,能够进行更深层次的信息处理和理解,通过理解用户的交互问题,根据车外图像生成对应的回复结果,使得回复更加准确和相关,提高了交互的效率和质量。

    目标检测方法、装置、电子设备和存储介质

    公开(公告)号:CN119206187A

    公开(公告)日:2024-12-27

    申请号:CN202411353636.4

    申请日:2024-09-26

    Abstract: 本发明提供一种目标检测方法、装置、电子设备和存储介质,其中方法包括:对密集场景图像进行多尺度的特征提取,得到多尺度的图像特征,并基于多尺度的图像特征和所述密集场景图像进行特征重建,得到多尺度的高分辨率特征;对多尺度的高分辨率特征进行特征融合,并基于融合所得的特征进行目标检测,得到密集场景图像对应的目标检测结果,在特征提取阶段引入包含更多细粒度信息的高分辨率特征,更有利于密集场景下的目标检测,可以获取更精准的检测结果,克服了传统的密集场景下的检测方案中对于小目标的检测性能较差的缺陷,同时,缓解了密集场景下边界框重叠导致的漏检问题和繁琐的后处理问题,实现了检测精度和检测效率的双重提升。

Patent Agency Ranking