-
公开(公告)号:CN117275094A
公开(公告)日:2023-12-22
申请号:CN202311320396.3
申请日:2023-10-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0985 , G06N3/0464
Abstract: 本发明提供一种手势识别方法、装置、电子设备及存储介质,该方法包括:将至少一帧图像输入手势识别模型的编码模块中,输出各图像对应的编码特征;各图像包括至少一个对象;将各图像对应的编码特征和至少一个查询特征输入手势识别模型中与图像对应的解码模块中,输出解码特征;至少一个查询特征与解码模块对应;对象和查询特征一一对应,解码特征包括通过查询特征从编码特征中查询的对应对象的手势特征;将解码特征输入手势识别模型中与图像对应的识别模块中,基于手势特征确定图像中各对象的手势类别;基于各图像中各对象的手势类别,确定各对象的手势。基于此,通过一个模型同时识别多个对象的手势,能提高手势识别的效率。
-
公开(公告)号:CN117237989A
公开(公告)日:2023-12-15
申请号:CN202311244839.5
申请日:2023-09-25
Applicant: 科大讯飞股份有限公司
IPC: G06V40/10 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08 , G06F16/33 , G06F16/35
Abstract: 申请公开了一种目标检测方法、装置、设备及存储介质,本申请将待检测图像切分为若干个子图像;利用图像编码器提取每一子图像的图像特征,利用文本编码器提取类别集合中每一候选类别标签的语义特征,图像编码器和文本编码器以学习图像和文本之间的对齐关系为训练目标,基于文本‑图像对训练数据训练得到;将每一子图像的图像特征分别与各个候选类别标签的语义特征计算相似度,取相似度最高的目标候选类别标签作为子图像的类别标签,最终得到待检测图像的目标检测结果。本申请方案对新增类别目标进行检测时,只需要将新增类别标签添加到类别集合中即可,无需对新增类别目标额外获取标注数据及重新训练神经网络模型,降低了人力和时间开销。
-
公开(公告)号:CN116664979A
公开(公告)日:2023-08-29
申请号:CN202310654313.8
申请日:2023-06-02
Applicant: 科大讯飞股份有限公司
IPC: G06V10/774 , G06V10/25 , G06V10/764 , G06V10/74 , G06N3/0455 , G06N3/0895
Abstract: 本发明提供了一种伪标签生成方法、模型训练方法、目标检测方法和设备,方法包括:采用已标注的第一训练图像对构建的目标检测模型进行训练,得到第一目标检测模型,利用第一目标检测模型获取第一训练图像中已标注目标对应的目标特征,利用第一目标检测模型并辅以已标注目标对应的目标特征,生成未标注的第二训练图像的伪标签,在此基础上,采用已标注的训练图像和具有伪标签的训练图像训练得到最终的目标检测模型,进而,利用训练得到的目标检测模型对待检测图像进行目标检测。本发明针对未标注的训练图像可生成准确的伪标签,在此基础上可训练得到性能较佳的目标检测模型,进而,利用该模型对待检测图像进行目标检测,可获得较好的检测效果。
-
公开(公告)号:CN114419148A
公开(公告)日:2022-04-29
申请号:CN202111491453.5
申请日:2021-12-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种触碰检测方法、装置、设备和计算机可读存储介质,该方法包括:获取对触碰检测平面拍摄到的第一图像和第二图像;分别对第一图像和第二图像进行目标检测,得到目标对象的目标部位分别在第一图像中的第一图像位置和在第二图像中的第二图像位置;对第一图像位置和第二图像位置进行联合分析,得到触碰检测结果;其中,触碰检测结果包括目标部位是否触碰到触碰检测平面。上述方案,能够提高触碰检测结果的精度,且成本较低。
-
公开(公告)号:CN114415830A
公开(公告)日:2022-04-29
申请号:CN202111663557.X
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种隔空输入方法及设备、计算机可读存储介质。该隔空输入方法包括:获取手势信息,手势信息至少包括动笔关键点的位置信息;获取动笔关键点的位置关系;响应于动笔关键点的位置关系满足触发动笔指令条件,执行动笔指令。通过上述方式,本发明能够降低输入识别难度,还能够增强输入的连贯性,以有利于改善用户的使用体验。
-
公开(公告)号:CN119964191A
公开(公告)日:2025-05-09
申请号:CN202311436504.3
申请日:2023-10-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种姿态识别方法及其装置、设备、存储介质,该姿态识别方法包括:获取包含目标的待识别图像;利用姿态识别模型对待识别图像进行特征提取,得到图像特征和关键点特征;基于图像特征和关键点特征进行识别,得到姿态识别结果。上述方案,能够实现姿态的准确识别。
-
公开(公告)号:CN119964165A
公开(公告)日:2025-05-09
申请号:CN202411812393.6
申请日:2024-12-10
Applicant: 科大讯飞股份有限公司
IPC: G06V30/14 , G06V30/416 , G06V30/412 , G06V30/22 , G06F16/334 , G06V30/19 , G06F16/35 , G06F40/30 , G06F40/258 , G06Q10/0639 , G06Q50/20
Abstract: 本申请公开了一种答题内容评价方法、系统和装置,该方法包括:获取当前答卷对应的初始图像,确定所述初始图像对应的至少一个一级标题;获取所述一级标题匹配的类别信息,基于所述类别信息,确定所述一级标题对应的目标答题分区;其中,所述目标答题分区包括至少一个二级标题;获取所述目标答题分区中每个所述二级标题对应的手写区域,确定所述手写区域对应的识别文本;基于所述识别文本,获取对应的评价结果。通过上述方式,本申请能够提高对答题内容进行评价的效率和灵活性。
-
公开(公告)号:CN119850719A
公开(公告)日:2025-04-18
申请号:CN202411821607.6
申请日:2024-12-11
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种视线估计方法、装置、电子设备和存储介质,其中方法包括:确定待估计的人脸图像,以及人脸图像中的眼部图像;对人脸图像和眼部图像进行特征提取,并基于特征提取所得到的人脸特征和眼部特征进行混合注意力交互,以及基于人脸特征进行自注意力交互,得到眼部融合特征和脸部姿态特征;基于眼部融合特征和脸部姿态特征进行视线估计,得到人脸图像对应的视线方向,克服了目前视线估计易受到各种因素干扰,导致估计结果准确性前欠佳的缺陷,通过混合注意力交互深度挖掘互补信息,并通过互补特征融合实现信息互补,在此基础上进行视线估计,不仅能够实现信息的最大利用,还能提升视线估计的精细度和准确性,能够得到准确可靠的视线方向。
-
公开(公告)号:CN119428733A
公开(公告)日:2025-02-14
申请号:CN202411881172.4
申请日:2024-12-19
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种人机交互方法、装置、相关设备及计算机程序产品,涉及人工智能技术领域。其中人机交互方法包括,通过获取车内目标用户提出的交互问题,利用车内的第一摄像头拍摄来获取目标用户的影像,根据影像确定目标用户的视线方向信息,从而能够更好地理解用户的意图和需求。利用第一摄像头确定目标用户的视线方向信息,并据此调整第二摄像头的视角,并获取第二摄像头拍摄的车外图像,使得系统能够看到用户所关注的对象或场景,并通过调用多模态大模型,结合车外图像和用户的交互问题,能够进行更深层次的信息处理和理解,通过理解用户的交互问题,根据车外图像生成对应的回复结果,使得回复更加准确和相关,提高了交互的效率和质量。
-
公开(公告)号:CN119206187A
公开(公告)日:2024-12-27
申请号:CN202411353636.4
申请日:2024-09-26
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种目标检测方法、装置、电子设备和存储介质,其中方法包括:对密集场景图像进行多尺度的特征提取,得到多尺度的图像特征,并基于多尺度的图像特征和所述密集场景图像进行特征重建,得到多尺度的高分辨率特征;对多尺度的高分辨率特征进行特征融合,并基于融合所得的特征进行目标检测,得到密集场景图像对应的目标检测结果,在特征提取阶段引入包含更多细粒度信息的高分辨率特征,更有利于密集场景下的目标检测,可以获取更精准的检测结果,克服了传统的密集场景下的检测方案中对于小目标的检测性能较差的缺陷,同时,缓解了密集场景下边界框重叠导致的漏检问题和繁琐的后处理问题,实现了检测精度和检测效率的双重提升。
-
-
-
-
-
-
-
-
-