-
公开(公告)号:CN119068870A
公开(公告)日:2024-12-03
申请号:CN202411114779.X
申请日:2024-08-14
Applicant: 浙江大学
Abstract: 本发明公开了一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统。本发明通过采集发声时的喉部振动信号解码声调与中文四声,采集发声时的唇部动点数据解码声韵母与音节,两者结果进行多模态融合,并将结果送入到大语言模型中,最终大语言模型输出识别文字。相较于传统的面颈部生理信号语音解码方法,本发明语音识别方法,具有适合长期监测,符合语言学的音节构成原理,受语料库影响小,泛化能力强,与单模态无法实现的单字符级别的识别精度与准确度等特点。
-
公开(公告)号:CN119068870B
公开(公告)日:2025-03-25
申请号:CN202411114779.X
申请日:2024-08-14
Applicant: 浙江大学
Abstract: 本发明公开了一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统。本发明通过采集发声时的喉部振动信号解码声调与中文四声,采集发声时的唇部动点数据解码声韵母与音节,两者结果进行多模态融合,并将结果送入到大语言模型中,最终大语言模型输出识别文字。相较于传统的面颈部生理信号语音解码方法,本发明语音识别方法,具有适合长期监测,符合语言学的音节构成原理,受语料库影响小,泛化能力强,与单模态无法实现的单字符级别的识别精度与准确度等特点。
-
公开(公告)号:CN119025825A
公开(公告)日:2024-11-26
申请号:CN202411114777.0
申请日:2024-08-14
Applicant: 浙江大学
IPC: G06F18/10 , A61B5/11 , A61B5/00 , G06V40/16 , G06V10/20 , G06V20/40 , G06F18/213 , G06F18/2131 , G16H20/30
Abstract: 本发明公开了一种多模态面部动点数据与声带运动数据的数据处理方法及系统。该方法包括提供文本、采集正常人发声时的面部连续图像或视频与喉部振动数据、预处理数据、提取时间特征与空间特征、建立中文发声的面颈部运动模型,以及聋哑人依照模型进行模仿发声并获取反馈。该系统包括深度摄像头、喉部振动传感器和麦克风,通过综合利用多模态数据,为聋哑人提供即时反馈,降低学习门槛,提高交流效率,适用于全球范围内的聋哑人群体。该发明促进了语音发声训练,具有广泛的应用前景和社会意义。
-
-