基于人脸网格的语音合成系统
    1.
    发明公开

    公开(公告)号:CN117275452A

    公开(公告)日:2023-12-22

    申请号:CN202310620975.3

    申请日:2023-05-30

    Inventor: 金宸极 林菲 张聪

    Abstract: 本发明属于计算机视觉技术领域,尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤:S1.搭建唇动模型,通过编码器从视频数据中提取唇动高级特征;S2.视频语音识别,选择视频作为模型的输出,并通过唇动视频预测说话者所讲述的内容,形成文本;S3.文本到语音生成,通过自回归的方式合成文本所对应的梅尔频谱,再通过音频解码器合成音频波形。与现有的技术相比,本基于人脸网格的语音合成系统的优点在于:能够提高正确度,直接通过高级特征(唇部动作)进行唇读。

Patent Agency Ranking