-
公开(公告)号:CN119207393A
公开(公告)日:2024-12-27
申请号:CN202411168568.4
申请日:2024-08-23
Applicant: 清华大学
Abstract: 本发明提出了一种语音交互识别增强方法,包括:采集说话者面向摄像头进行语音交互的视频,将其拆分为N段待识别语音和N帧待识别图像,并构成待识别数据;将待识别数据输入预设的语音交互识别增强模型,该模型包括唇语特征提取网络、语音特征提取网络、时间特征提取网络和激活网络,时间特征提取网络用于对唇语特征提取网络提取的唇语特征矩阵和语音特征提取网络提取的语音特征矩阵添加时序信息,激活网络用于模拟生物脑中视觉信息对听觉神经回路的激活‑抑制机制,实现视觉、听觉两种模态的交互,从而得到语音识别结果。本发明实现视、听觉双模态语音识别在嘈杂环境下准确识别唇语和语音,且响应能力和准确性满足要求。