-
公开(公告)号:CN117275452A
公开(公告)日:2023-12-22
申请号:CN202310620975.3
申请日:2023-05-30
Applicant: 杭州电子科技大学
IPC: G10L13/027 , G10L13/08 , G10L21/0232 , G10L21/0264 , G10L21/057 , G06V40/16
Abstract: 本发明属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动高级特征;S2.视频语音识别,选择视频作为模型的输出,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。
-
公开(公告)号:CN116825083A
公开(公告)日:2023-09-29
申请号:CN202310176960.2
申请日:2023-02-28
Applicant: 杭州电子科技大学
IPC: G10L13/08 , G10L15/25 , G10L15/26 , G10L19/20 , G10L13/02 , G10L25/24 , G06V40/16 , G06V40/20 , G06V10/82 , G06N3/0455 , G06N3/044 , G06N3/0464 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动级特征;S2.视频语音识别,选择视频作为模型的输,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。
-