-
公开(公告)号:CN115985310A
公开(公告)日:2023-04-18
申请号:CN202211536927.8
申请日:2022-12-02
Applicant: 北京工商大学
IPC: G10L15/22 , G10L15/25 , G10L19/00 , G06V40/16 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公布了一种基于多级视听融合的构音障碍语音识别方法,通过设计二级融合引入视觉信息以增加特征;在第一级融合中,基于面部言语功能区域的运动视觉信号,对各言语功能区域进行视觉融合编码;在第二级融合中,将视觉融合编码与声学特征融合,形成视听融合的构音障碍语音识别,从而更适用于构音障碍语音;本发明方法能够降低构音障碍语音识别成本,提升构音障碍语音识别精度。
-
公开(公告)号:CN113241065B
公开(公告)日:2022-05-24
申请号:CN202110512052.7
申请日:2021-05-11
Applicant: 北京工商大学
Abstract: 本发明公布了一种基于视觉面部轮廓运动的构音障碍语音识别方法及系统,系统包括多模态数据获取、多模态融合特征计算、多模态语音识别计算和语言模型计算模块;多模态数据获取算模块用于获取构音障碍者的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于获得由多模态特征到音素字符的映射关系;语言模型计算模块用于获得由音素字符到中文句子的映射关系。本发明通过融合语音声学特征参数与构音障碍者的发音动作得到融合后的多模态特征,利用融合后的多模态特征进行构音障碍语音识别,由此有效地提升构音障碍语音识别准确度。
-
公开(公告)号:CN113241065A
公开(公告)日:2021-08-10
申请号:CN202110512052.7
申请日:2021-05-11
Applicant: 北京工商大学
Abstract: 本发明公布了一种基于视觉面部轮廓运动的构音障碍语音识别方法及系统,系统包括多模态数据获取、多模态融合特征计算、多模态语音识别计算和语言模型计算模块;多模态数据获取算模块用于获取构音障碍者的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于获得由多模态特征到音素字符的映射关系;语言模型计算模块用于获得由音素字符到中文句子的映射关系。本发明通过融合语音声学特征参数与构音障碍者的发音动作得到融合后的多模态特征,利用融合后的多模态特征进行构音障碍语音识别,由此有效地提升构音障碍语音识别准确度。
-
-