一种基于多模态控制的人体视频生成方法及装置

    公开(公告)号:CN120034707A

    公开(公告)日:2025-05-23

    申请号:CN202510238205.1

    申请日:2025-02-28

    Abstract: 本说明书实施例提供了基于多模态控制的人体视频生成方法及装置。该方法包括:获取文本提示信息、音频驱动信号以及目标说话人的参考图像,所述文本提示信息包含用于对所述目标说话人进行动作提示的文本信息,所述音频驱动信号为包含语音内容的音频信息;基于所述文本提示信息和所述音频驱动信号,生成所述目标说话人的运动姿态表示信息,所述运动姿态表示信息用于表示所述目标说话人的运动姿态;基于所述参考图像、所述音频驱动信号和所述运动姿态表示信息,生成所述目标说话人的说话视频,所述说话视频中包含所述目标说话人表达所述语音内容时的身体运动。

    针对目标序列进行模态转换的方法及装置

    公开(公告)号:CN116934883A

    公开(公告)日:2023-10-24

    申请号:CN202310904141.5

    申请日:2023-07-21

    Abstract: 本说明书实施例提供一种针对目标序列进行模态转换的方法及装置,在模态转换的方法中,获取第一模态序列,其中包括若干第一模态特征数据。通过编码器,对各个第一模态特征数据逐个进行编码,得到对应的各个第一模态编码,各个第一模态编码形成第一编码序列。通过第一解码器,并行地基于各个第一模态编码,预测各自对应的各个第二模态编码,各个第二模态编码形成第二编码序列。通过第二解码器,基于第一编码序列,利用交叉注意力机制,对第二编码序列进行修正,得到修正编码序列。根据修正编码序列,确定对应于第一模态序列的第二模态序列,该第二模态序列包括若干第二模态特征数据,其用于驱动虚拟形象影像的合成。

    动画生成方法、模型训练方法及装置

    公开(公告)号:CN116843798B

    公开(公告)日:2024-07-05

    申请号:CN202310810626.8

    申请日:2023-07-03

    Abstract: 本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。

    训练生成模型的方法和装置
    8.
    发明公开

    公开(公告)号:CN118691721A

    公开(公告)日:2024-09-24

    申请号:CN202410692380.3

    申请日:2024-05-30

    Abstract: 本说明书实施例提供一种训练生成模型的方法和装置,其中生成模型用于生成人像渲染数据。训练方法包括,首先利用多个不同人像I D的多个视频,进行多轮联合训练。其中,针对任意目标I D的联合训练包括,利用身份编码器,从目标I D对应的目标视频的视频帧中提取I D专有特征,其中包括,目标I D外形特征、目标I D超网络参数。将目标I D超网络参数施加于生成模型的I D专用部分,得到改造的生成模型;然后利用改造的生成模型处理驱动信号和目标I D外形特征,得到渲染数据。根据渲染数据和目标视频,更新身份编码器和生成模型中的共享部分。联合训练之后,还可以执行针对特定I D的专用训练,得到特定I D专用的生成模型。

    动画生成方法、模型训练方法及装置

    公开(公告)号:CN116843798A

    公开(公告)日:2023-10-03

    申请号:CN202310810626.8

    申请日:2023-07-03

    Abstract: 本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。

Patent Agency Ranking