-
公开(公告)号:CN119889321A
公开(公告)日:2025-04-25
申请号:CN202510361911.5
申请日:2025-03-26
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/25 , G06F3/04883 , G06F3/01
Abstract: 本申请提出一种语音识别方法、装置、设备和计算机程序产品,该方法能够从语音识别对象的图像中提取图像特征,从语音识别对象的音频中提取语音特征,其中图像特征包括唇部动作特征、手势特征以及面部表情特征。然后根据语音识别对象所处的光线条件和声学条件等,分别确定图像特征和语音特征的权重。最后根据图像特征和语音特征的权重,对图像特征和语音特征进行加权融合得到融合特征,通过融合特征确定语音识别结果。如此设置,可以从识别对象的语音、唇部动作、手势动作、面部表情动作等多个维度对语音进行识别,同时根据环境条件适应性调整不同维度对应的权重,进而避免环境对语音识别结果的影响,提高语音识别的准确性。
-
公开(公告)号:CN119832911A
公开(公告)日:2025-04-15
申请号:CN202411656699.7
申请日:2024-11-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种设备唤醒方法、装置及系统,所述方法包括:在检测到环境声音的情况下,获取环境声音来源区域的目标人物图像;对目标人物图像进行动作分析,确定目标人物的身体语言;基于身体语言与目标身体语言的匹配度,唤醒设备。本发明提供的设备唤醒方法、装置及系统,在检测到环境声音的情况下,获取环境声音来源区域的目标人物图像,从而可以结合声音信息和视觉信息准确识别用户是否存在唤醒意图,避免仅基于声音信息识别唤醒意图影响唤醒精度的问题。
-