Patent search ap:("杭州电子科技大学") AND inv:"金宸极" Page 1

1.

发明公开
基于人脸网格的语音合成系统审中-公开

公开(公告)号：CN117275452A

公开(公告)日：2023-12-22

申请号：CN202310620975.3

申请日：2023-05-30

Applicant: 杭州电子科技大学

Inventor： 金宸极 , 林菲 , 张聪

IPC: G10L13/027 , G10L13/08 , G10L21/0232 , G10L21/0264 , G10L21/057 , G06V40/16

Abstract: 本发明属于计算机视觉技术领域，尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤：S1.搭建唇动模型，通过编码器从视频数据中提取唇动高级特征；S2.视频语音识别，选择视频作为模型的输出，并通过唇动视频预测说话者所讲述的内容，形成文本；S3.文本到语音生成，通过自回归的方式合成文本所对应的梅尔频谱，再通过音频解码器合成音频波形。与现有的技术相比，本基于人脸网格的语音合成系统的优点在于：能够提高正确度，直接通过高级特征（唇部动作）进行唇读。

2.

发明公开
基于人脸网格的语音合成系统审中-实审

公开(公告)号：CN116825083A

公开(公告)日：2023-09-29

申请号：CN202310176960.2

申请日：2023-02-28

Applicant: 杭州电子科技大学

Inventor： 金宸极 , 林菲 , 张聪

IPC: G10L13/08 , G10L15/25 , G10L15/26 , G10L19/20 , G10L13/02 , G10L25/24 , G06V40/16 , G06V40/20 , G06V10/82 , G06N3/0455 , G06N3/044 , G06N3/0464 , G06N3/08

Abstract: 本发明属于计算机视觉技术领域，尤其涉及一种带基于人脸网格的语音合成系统。包括如下步骤：S1.搭建唇动模型，通过编码器从视频数据中提取唇动级特征；S2.视频语音识别，选择视频作为模型的输，并通过唇动视频预测说话者所讲述的内容，形成文本；S3.文本到语音生成，通过自回归的方式合成文本所对应的梅尔频谱，再通过音频解码器合成音频波形。与现有的技术相比，本基于人脸网格的语音合成系统的优点在于：能够提高正确度，直接通过高级特征(唇部动作)进行唇读。

Patent Agency Ranking