-
公开(公告)号:CN119360417A
公开(公告)日:2025-01-24
申请号:CN202411459811.8
申请日:2024-10-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种单目手势识别方法及相关装置,涉及手势识别技术领域,单目手势识别方法包括:获取目标手部图像序列;基于预先训练得到的单目3D手部姿态估计模型,获取目标手部图像序列的每个目标手部图像对应的手部3D关键点位置信息,得到目标手部3D关键点位置信息序列,其中,单目3D手部姿态估计模型采用标注有手部3D关键点位置信息的训练手部图像,同时辅以训练手部图像的手部姿态描述文本和/或真实手部3D重建标签训练得到;根据目标手部3D关键点位置信息序列,进行手势识别,得到手势识别结果。本申请公开的单目手势识别方法具有较高的识别精度。
-
公开(公告)号:CN119252514A
公开(公告)日:2025-01-03
申请号:CN202411765514.6
申请日:2024-12-04
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及人工智能技术领域,提供一种健康监测方法、装置、电子设备和存储介质,其中方法包括:对当前采集的视频帧进行人脸检测,得到当前帧的人脸区域图像;对人脸区域图像进行关键点检测,得到人脸关键点;基于人脸关键点,从人脸区域图像中确定出人脸局部区域;基于人脸区域图像中的目标关键点,将当前帧的人脸局部区域与上一帧的人脸局部区域进行对齐,并应用对齐后的人脸局部区域进行健康监测,得到健康指标。本发明通过基于检测到的人脸关键点,从人脸区域图像中确定出人脸局部区域,可以抑制过多干扰像素对特征提取的影响,通过将当前帧的人脸局部区域与上一帧进行对齐,可以显著缓解像素错位带来的影响,从而提高健康监测的准确性。
-
公开(公告)号:CN115147859B
公开(公告)日:2025-01-03
申请号:CN202210909939.4
申请日:2022-07-29
Applicant: 科大讯飞股份有限公司
IPC: G06V30/42 , G06V30/142 , G06V30/148
Abstract: 本申请公开了一种文本处理方法、装置、设备及存储介质,通过摄像头对审阅者批注纸质作业文档的场景进行拍摄,获取到拍摄的视频,进而对视频中每一视频帧进行识别,得到每一视频帧中包含的审阅者手写体批注内容以及作答者的身份信息,基于识别到的每一视频帧的作答者的身份信息,对拍摄的视频进行切分,得到与每一身份的作答者对应的视频帧序列,基于每一身份的作答者对应的视频帧序列中各视频帧包含的审阅者手写体批注内容,可以分析得到每一身份的作答者的作业学情。本申请提供的方案对于审阅者而言是无感的,不需要改变审阅者的批注流程和习惯,也不需要审阅者去手动对批注后的纸质作业文档进行拍照操作,因此降低审阅者的工作量。
-
公开(公告)号:CN119206758A
公开(公告)日:2024-12-27
申请号:CN202411467104.3
申请日:2024-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/416 , G06V30/19 , G06N5/04 , G06N3/0464 , G06N3/045 , G06V10/82
Abstract: 本申请公开了一种文档识别方法、装置、相关设备及计算机程序产品,对于待识别文本可以拆分为多页文档图像,并分别提取每页文档图像的视觉特征,可以将多页文档图像的视觉特征同时送入大模型,同时提取第一文档识别指令的文本特征也送入大模型,所述第一文档识别指令用于指示大模型输出文档图像的文档识别结果,如此能够通过大模型端到端地输出多页文档的识别结果。由于大模型具有更强的建模能力,同时将多页文档图像的视觉特征送入大模型,可以保留不同页文档图像之间的上下文信息,进而能够理解文本的上下文语义,更精确地分析文档的层次结构和内容关系,从而提高文本识别和版面理解的准确性,提升多页文档的识别结果准确度。
-
公开(公告)号:CN119206733A
公开(公告)日:2024-12-27
申请号:CN202411470781.0
申请日:2024-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06V30/16 , G06V30/226 , G06V10/82 , G06V30/19 , G06N3/08
Abstract: 本发明提供一种表达式识别方法、装置、电子设备和存储介质,其中方法包括:获取表达式图像;基于表达式图像的图像特征,对表达式图像进行符号识别,得到表达式图像的符号识别结果;基于图像特征和符号识别结果,对表达式图像进行符号校正和符号连通性预测,得到表达式图像的符号校正结果和符号连通关系;基于符号校正结果和符号连通关系,确定表达式图像对应的表达式。本发明提供的方法、装置、电子设备和存储介质,可以充分应用表达式图像的整体视觉特性,从而保证表达式识别的准确性和可靠性;并且,可以一次性输出表达式图像中所有符号的符号校正结果和符号连通关系,这种非自回归的形式能够大大提高表达式的识别效率。
-
公开(公告)号:CN114357135B
公开(公告)日:2024-11-01
申请号:CN202111672307.2
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/338 , G06F16/33 , G06V40/16 , G06F40/295 , G06T13/40 , G10L13/08
Abstract: 本申请公开了交互方法、交互装置、电子设备以及存储介质,其中,该交互方法包括:获取到用户的问询文本以及面部表情,并确定用户当前的情感类型标签;基于问询文本与情感类型标签确定问询文本的回复文本,并基于问询文本以及回复文本形成对话文本;利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据;将情感回应数据加载到虚拟形象中,以对用户做出带有情感的交互响应。通过上述方案,本申请交互方法对应的虚拟形象能够进行类人的情感表达,从而能够使用户对应获得更自然,更具趣味性的交互体验。
-
公开(公告)号:CN118782044A
公开(公告)日:2024-10-15
申请号:CN202410847026.3
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
-
公开(公告)号:CN118690748A
公开(公告)日:2024-09-24
申请号:CN202411173918.6
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/242 , G06F40/30
Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置,先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列,再确定第一单词的词性是否为目标词性;如果第一单词的词性是目标词性,则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素,会导致英语固定搭配的形式可能发生变化,但是,不管怎样变化,英语固定搭配必须符合特定的语法和语义规则,而对于以目标单词开头的英语固定搭配,目标单词后面的词的词性是需要满足条件,才能与特定的语法和语义规则匹配,因此,基于目标单词后的第一单词的词性是否为目标词性,确定目标英语单词序列是否为英语固定搭配,准确率更高。
-
公开(公告)号:CN118485785B
公开(公告)日:2024-09-24
申请号:CN202410948625.4
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司 , 浙江潮汐力科技有限公司
Abstract: 本发明涉及图像处理技术领域,提供一种三维重建方法、装置、电子设备和存储介质,其中方法包括:获取至少两个视角图像;基于至少两个视角图像的视角图特征之间的相关性,对各视角图特征进行特征增强,得到各视角图像的增强图特征,并基于各视角图像的增强图特征,进行深度预测,得到预测深度范围;将预测深度范围作为立体匹配算法的初始深度范围,应用立体匹配算法在至少两个视角图像的基础上进行三维重建。本发明提供的方法、装置、电子设备和存储介质,将预测深度范围作为初始深度范围,能够缩小初始深度范围与真实深度情况之间的误差,提高在三维重建的迭代优化效率,降低陷入局部最优解的风险,由此提高三维重建效率,保证三维重建质量。
-
公开(公告)号:CN118675089A
公开(公告)日:2024-09-20
申请号:CN202410847707.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06V20/40 , G06V40/16 , G06V20/52 , G06F18/25 , G06N20/00 , G06V10/82 , G06N3/0464 , G06N3/044 , G06N3/045 , G06N3/0442 , G16H50/30 , A61B5/0205 , A61B5/00 , A61B5/145
Abstract: 本发明提供一种生理健康监测方法、装置、车辆、电子设备和存储介质,方法包括获取包括待监测对象的视频,对所述视频中的各帧图像进行面部检测,得到所述各帧图像中的面部图块;预测所述面部图块对应的基本属性,提取包括所述基本属性的描述文本的文本特征,并提取各所述面部图块的图像时序特征;基于所述文本特征和所述图像时序特征,对所述待监测对象的生理健康进行监测。本发明提供的生理健康监测方法、装置、车辆、电子设备和存储介质,能够从复杂的视频信号中提取出微弱的生理指标信号,相比于传感器监测的方式更加便捷,能够提高监测效率的同时保证了监测精度。
-
-
-
-
-
-
-
-
-