-
公开(公告)号:CN112330713A
公开(公告)日:2021-02-05
申请号:CN202011346536.0
申请日:2020-11-26
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应用前景。
-
公开(公告)号:CN112330713B
公开(公告)日:2023-12-19
申请号:CN202011346536.0
申请日:2020-11-26
Applicant: 南京工程学院
IPC: G06T7/207 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应(56)对比文件Yue Xie;Cai-Rong Zou;Rui-Yu Liang;Hua-Wei Tao.Phoneme Recognition Based onDeep Belief Network《.2016 InternationalConference on Information System andArtificial Intelligence (ISAI)》.2016,全文.马宁;田国栋;周曦.一种基于long short-term memory的唇语识别方法.中国科学院大学学报.2018,(01),全文.荣传振;岳振军;贾永兴;王渊;杨宇.唇语识别关键技术研究进展.数据采集与处理.2012,(S2),全文.刘大运;房国志;骆天依;魏华杰;王倩.基于BiLSTM-Attention唇语识别的研究《.计算技术与自动化》.2020,全文.Bor-Shing Lin;Yu-Hsien Yao;Ching-FengLiu;Ching-Feng Lien;Bor-ShyhLin.Development of Novel Lip-ReadingRecognition Algorithm《.IEEE Access》.2017,全文.
-