基于语音的图像驱动方法、装置、电子设备及存储介质

    公开(公告)号:CN115393945A

    公开(公告)日:2022-11-25

    申请号:CN202211327173.5

    申请日:2022-10-27

    Abstract: 本申请提出一种基于语音的图像驱动方法、装置、电子设备及存储介质,方法包括:预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据;根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据,对待驱动面部图像的各个面部关键点进行位置变换,得到待驱动面部图像的更新后的面部关键点位置;基于待驱动面部图像的更新后的面部关键点位置,生成驱动后的面部图像。采用本申请的技术方案,可以直接预测目标语音对应的口唇偏移数据和头部运动数据,然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动,无需利用目标语音对应的说话视频作为中间媒介,实现了端到端的语音驱动图像,提高了语音驱动图像的效率。

Patent Agency Ranking