-
公开(公告)号:CN117275094A
公开(公告)日:2023-12-22
申请号:CN202311320396.3
申请日:2023-10-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0985 , G06N3/0464
Abstract: 本发明提供一种手势识别方法、装置、电子设备及存储介质,该方法包括:将至少一帧图像输入手势识别模型的编码模块中,输出各图像对应的编码特征;各图像包括至少一个对象;将各图像对应的编码特征和至少一个查询特征输入手势识别模型中与图像对应的解码模块中,输出解码特征;至少一个查询特征与解码模块对应;对象和查询特征一一对应,解码特征包括通过查询特征从编码特征中查询的对应对象的手势特征;将解码特征输入手势识别模型中与图像对应的识别模块中,基于手势特征确定图像中各对象的手势类别;基于各图像中各对象的手势类别,确定各对象的手势。基于此,通过一个模型同时识别多个对象的手势,能提高手势识别的效率。
-
公开(公告)号:CN117475160A
公开(公告)日:2024-01-30
申请号:CN202311199417.0
申请日:2023-09-15
Applicant: 科大讯飞股份有限公司
IPC: G06V10/40 , G06V10/74 , G06V10/774 , G06V10/764
Abstract: 本申请公开了目标对象跟随方法、系统以及相关装置,该方法包括:响应于获取到跟随指令,从当前帧中获取目标对象的第一图像特征和第一朝向信息,将第一图像特征存储至队列集合中的目标队列;获取下一帧中的所有候选对象,响应于下一帧中至少部分候选对象之间产生遮挡,获取每个候选对象的第二图像特征和第二朝向信息;基于第二图像特征、第二朝向信息以及队列集合,将满足预设条件的候选对象作为目标对象;将目标对象的第二朝向信息更新为第一朝向信息,以及将目标对象的第二图像特征更新为第一图像特征,并返回至将第一图像特征存储至队列集合中的目标队列的步骤。通过上述方式,本申请能够提高对目标对象进行跟随的效率和准确性。
-
公开(公告)号:CN118155275A
公开(公告)日:2024-06-07
申请号:CN202410155047.9
申请日:2024-02-02
Applicant: 科大讯飞股份有限公司
IPC: G06V40/20 , G06V40/10 , G06V10/774 , G06V10/82
Abstract: 本申请提出一种行人重识别模型的训练方法、行人重识别方法及相关装置,行人重识别模型的训练方法通过图像编码器提取样本人体图像的图像特征,通过文本编码器提取行人重识别提示词的文本特征;行人重识别提示词包括可学习特征,可学习特征通过对齐图像特征以及文本特征确定;以基于图像特征和文本特征确定的行人识别结果与样本人体图像对应的行人识别标签相一致为目标,对图像编码器的参数进行优化。如此设置,从文本和图像两个模态对模型进行训练,提高模型的特征提取能力,而且在行人重识别提示词中引入通过对齐图像特征以及文本特征得到的学习特征,使行人重识别提示词对应的文本特征更适用于行人重识别任务,提高行人重识别技术的识别精度。
-
公开(公告)号:CN119360417A
公开(公告)日:2025-01-24
申请号:CN202411459811.8
申请日:2024-10-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种单目手势识别方法及相关装置,涉及手势识别技术领域,单目手势识别方法包括:获取目标手部图像序列;基于预先训练得到的单目3D手部姿态估计模型,获取目标手部图像序列的每个目标手部图像对应的手部3D关键点位置信息,得到目标手部3D关键点位置信息序列,其中,单目3D手部姿态估计模型采用标注有手部3D关键点位置信息的训练手部图像,同时辅以训练手部图像的手部姿态描述文本和/或真实手部3D重建标签训练得到;根据目标手部3D关键点位置信息序列,进行手势识别,得到手势识别结果。本申请公开的单目手势识别方法具有较高的识别精度。
-
公开(公告)号:CN118675089A
公开(公告)日:2024-09-20
申请号:CN202410847707.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06V20/40 , G06V40/16 , G06V20/52 , G06F18/25 , G06N20/00 , G06V10/82 , G06N3/0464 , G06N3/044 , G06N3/045 , G06N3/0442 , G16H50/30 , A61B5/0205 , A61B5/00 , A61B5/145
Abstract: 本发明提供一种生理健康监测方法、装置、车辆、电子设备和存储介质,方法包括获取包括待监测对象的视频,对所述视频中的各帧图像进行面部检测,得到所述各帧图像中的面部图块;预测所述面部图块对应的基本属性,提取包括所述基本属性的描述文本的文本特征,并提取各所述面部图块的图像时序特征;基于所述文本特征和所述图像时序特征,对所述待监测对象的生理健康进行监测。本发明提供的生理健康监测方法、装置、车辆、电子设备和存储介质,能够从复杂的视频信号中提取出微弱的生理指标信号,相比于传感器监测的方式更加便捷,能够提高监测效率的同时保证了监测精度。
-
公开(公告)号:CN119536609A
公开(公告)日:2025-02-28
申请号:CN202411654731.8
申请日:2024-11-19
Applicant: 科大讯飞股份有限公司
IPC: G06F3/04883 , G06V40/20 , G06V10/82 , G06V40/70 , G10L15/22
Abstract: 本申请公开了一种操作意图识别方法、交互方法及相关装置,涉及人机交互技术领域,操作意图识别方法包括:获取目标用户的多模态数据,多模态数据包括手部图像数据和语音数据;根据目标用户的多模态数据,获取手指端点三维坐标、手指指向向量弧度、目标操作以及操作置信度;根据操作置信度,确定目标用户是否有操作意图;若目标用户有操作意图,则根据手指端点三维坐标和手指指向向量弧度,确定目标操作对应的操作对象,以得到包含目标操作以及目标操作对应的操作对象的操作意图识别结果。本申请公开的操作意图识别方法能够较为准确地识别出操作意图,进而能够提升交互准确率,从而能够提升用户体验。
-
公开(公告)号:CN117711067A
公开(公告)日:2024-03-15
申请号:CN202311789594.4
申请日:2023-12-22
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种行为识别方法、装置、设备及存储介质,本申请考虑到不同类型行为动作所需要时间信息是不同的,改进了现有单一的时序建模方式,同时配置了长时分支网络和短时分支网络,分别对拍摄的连续帧图像在时序维度上提取不同稀疏程度的图像特征,得到长时图像特征和短时图像特征,基于长时图像特征预测第一行为分类结果,基于短时图像特征预测第二行为分类结果,融合两个分类结果得到最终的行为分类结果。本申请方案能够自适应的对不同类型的行为动作进行长短时时序建模,并融合长时分支网络和短时分支网络的分类结果,改善了传统方案时序建模方式单一的弊端,能够适用于对多种不同类型行为动作的识别场景。
-
公开(公告)号:CN116740737A
公开(公告)日:2023-09-12
申请号:CN202310809406.3
申请日:2023-06-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/228 , G06V40/20 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/75 , G06V10/74 , G06V10/764
Abstract: 本申请实施例公开了一种手势识别方法、装置、设备及存储介质,在采集到的待识别图像中提取手部区域图像;在若干描述文本中确定与手部区域图像匹配的目标描述文本;不同的描述文本用于指示不同的手势类型;将目标描述文本指示的手势类型确定为待识别图像的手势识别结果。本申请在进行手势识别时,在考虑图像的基础上引入了用于指示手势类型的描述文本,从而提高手势识别的准确率,进而提高手势交互性能。
-
-
-
-
-
-
-