Patent search ap:("科大讯飞股份有限公司") AND inv:"方嘉仪" Page 1

1.

发明公开
基于语音的图像驱动方法、装置、电子设备及存储介质无效

公开(公告)号：CN115393945A

公开(公告)日：2022-11-25

申请号：CN202211327173.5

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 方嘉仪 , 何山 , 殷兵 , 刘聪 , 周良 , 吴小燕

IPC: G06V40/16 , G06V40/20 , G06V10/22 , G06V10/26 , G06V10/774 , G10L19/04

Abstract: 本申请提出一种基于语音的图像驱动方法、装置、电子设备及存储介质，方法包括：预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。采用本申请的技术方案，可以直接预测目标语音对应的口唇偏移数据和头部运动数据，然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动，无需利用目标语音对应的说话视频作为中间媒介，实现了端到端的语音驱动图像，提高了语音驱动图像的效率。

Patent Agency Ranking