一种基于多模态控制的人体视频生成方法及装置

    公开(公告)号:CN120034707A

    公开(公告)日:2025-05-23

    申请号:CN202510238205.1

    申请日:2025-02-28

    Abstract: 本说明书实施例提供了基于多模态控制的人体视频生成方法及装置。该方法包括:获取文本提示信息、音频驱动信号以及目标说话人的参考图像,所述文本提示信息包含用于对所述目标说话人进行动作提示的文本信息,所述音频驱动信号为包含语音内容的音频信息;基于所述文本提示信息和所述音频驱动信号,生成所述目标说话人的运动姿态表示信息,所述运动姿态表示信息用于表示所述目标说话人的运动姿态;基于所述参考图像、所述音频驱动信号和所述运动姿态表示信息,生成所述目标说话人的说话视频,所述说话视频中包含所述目标说话人表达所述语音内容时的身体运动。

Patent Agency Ranking