基于视觉面部轮廓运动的构音障碍语音识别方法及系统

    公开(公告)号:CN113241065B

    公开(公告)日:2022-05-24

    申请号:CN202110512052.7

    申请日:2021-05-11

    Abstract: 本发明公布了一种基于视觉面部轮廓运动的构音障碍语音识别方法及系统,系统包括多模态数据获取、多模态融合特征计算、多模态语音识别计算和语言模型计算模块;多模态数据获取算模块用于获取构音障碍者的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于获得由多模态特征到音素字符的映射关系;语言模型计算模块用于获得由音素字符到中文句子的映射关系。本发明通过融合语音声学特征参数与构音障碍者的发音动作得到融合后的多模态特征,利用融合后的多模态特征进行构音障碍语音识别,由此有效地提升构音障碍语音识别准确度。

    基于视觉面部轮廓运动的构音障碍语音识别方法及系统

    公开(公告)号:CN113241065A

    公开(公告)日:2021-08-10

    申请号:CN202110512052.7

    申请日:2021-05-11

    Abstract: 本发明公布了一种基于视觉面部轮廓运动的构音障碍语音识别方法及系统,系统包括多模态数据获取、多模态融合特征计算、多模态语音识别计算和语言模型计算模块;多模态数据获取算模块用于获取构音障碍者的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于获得由多模态特征到音素字符的映射关系;语言模型计算模块用于获得由音素字符到中文句子的映射关系。本发明通过融合语音声学特征参数与构音障碍者的发音动作得到融合后的多模态特征,利用融合后的多模态特征进行构音障碍语音识别,由此有效地提升构音障碍语音识别准确度。

Patent Agency Ranking