-
公开(公告)号:CN118553270A
公开(公告)日:2024-08-27
申请号:CN202410777303.8
申请日:2024-06-17
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于人脸属性解耦的语音驱动人脸口型替换方法,属于计算机视觉和深度学习技术领域。本发明通过身份编码器、语音编码器和纹理编码器提取源人脸、源语音和参考图像的特征,并利用U‑Net和StyleGAN2生成高质量的口型同步人脸图像。本方法通过选择与源语音差异最大的参考图像,避免了唇形信息泄露,确保生成的唇形同步性和时间一致性。解决了传统方法中唇形不一致和图像质量不高的问题,生成的说话人脸视频更加真实连贯。