-
公开(公告)号:CN120034707A
公开(公告)日:2025-05-23
申请号:CN202510238205.1
申请日:2025-02-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/854 , H04N21/81 , H04N21/233 , H04N21/236 , H04N21/439
Abstract: 本说明书实施例提供了基于多模态控制的人体视频生成方法及装置。该方法包括:获取文本提示信息、音频驱动信号以及目标说话人的参考图像,所述文本提示信息包含用于对所述目标说话人进行动作提示的文本信息,所述音频驱动信号为包含语音内容的音频信息;基于所述文本提示信息和所述音频驱动信号,生成所述目标说话人的运动姿态表示信息,所述运动姿态表示信息用于表示所述目标说话人的运动姿态;基于所述参考图像、所述音频驱动信号和所述运动姿态表示信息,生成所述目标说话人的说话视频,所述说话视频中包含所述目标说话人表达所述语音内容时的身体运动。
-
公开(公告)号:CN115359385A
公开(公告)日:2022-11-18
申请号:CN202210875443.X
申请日:2022-07-25
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06V20/40 , G06V10/46 , G06V10/762 , G06V10/82
Abstract: 本说明书实施例公开了一种视频数据处理方法、装置和计算机设备。所述方法包括:根据生物对象的视频数据,获取多个视频帧;根据视频帧提取第一特征数据,所述第一特征数据用于表示生物对象的身份信息;对多个第一特征数据进行聚合,得到用于核验生物对象身份的第二特征数据。本说明书实施例可以提高身份核验时的准确程度。
-
公开(公告)号:CN119653202A
公开(公告)日:2025-03-18
申请号:CN202411720941.2
申请日:2024-11-27
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/854 , G06V40/16 , G06T7/246 , G06V10/764 , G06V10/82 , G06N3/0499 , G06N3/0455 , G06N3/08 , G10L21/10
Abstract: 一种预测目标对象的运动特征的方法、训练扩散模型的方法和设备,所述预测目标对象的运动特征的方法包括:获取第一图像,所述第一图像包括目标对象的头像;基于所述第一图像生成所述目标对象的第一位置特征,所述第一位置特征包括所述目标对象的多个预设点在预设状态下的第一位置和所述多个预设点的第一运动特征,所述第一运动特征包括所述多个预设点的相对于所述第一位置的第一偏移;获取第一语音音频,基于第一语音音频获取音频特征序列;通过扩散模型,基于所述第一位置特征和所述音频特征序列,确定第二运动特征的第一序列,所述第二运动特征包括所述多个预设点的相对于所述第一位置的第二偏移。
-
公开(公告)号:CN119402720A
公开(公告)日:2025-02-07
申请号:CN202411513771.0
申请日:2024-10-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/81 , H04N21/854 , G10L15/26 , G10L15/02 , G10L21/10
Abstract: 本说明书实施例提供一种数字人交互视频的生成方法以及交互设备。在该方法中,生成设备在获得目标语音后,可以从预先构建的素材库中获得基础视频和口型图集合,基于所述目标语音和所述口型图集合,生成与所述目标语音中的音素变化情况匹配的目标口型图序列,进而,将所述目标口型图序列贴合至所述基础视频中的所述数字人的口部区域,从而得到目标视频。
-
公开(公告)号:CN116934883A
公开(公告)日:2023-10-24
申请号:CN202310904141.5
申请日:2023-07-21
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种针对目标序列进行模态转换的方法及装置,在模态转换的方法中,获取第一模态序列,其中包括若干第一模态特征数据。通过编码器,对各个第一模态特征数据逐个进行编码,得到对应的各个第一模态编码,各个第一模态编码形成第一编码序列。通过第一解码器,并行地基于各个第一模态编码,预测各自对应的各个第二模态编码,各个第二模态编码形成第二编码序列。通过第二解码器,基于第一编码序列,利用交叉注意力机制,对第二编码序列进行修正,得到修正编码序列。根据修正编码序列,确定对应于第一模态序列的第二模态序列,该第二模态序列包括若干第二模态特征数据,其用于驱动虚拟形象影像的合成。
-
公开(公告)号:CN116843798B
公开(公告)日:2024-07-05
申请号:CN202310810626.8
申请日:2023-07-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T13/00
Abstract: 本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
-
公开(公告)号:CN119583919A
公开(公告)日:2025-03-07
申请号:CN202411745758.8
申请日:2024-11-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04N21/8549 , H04N21/234 , H04N21/233 , H04N21/44 , H04N21/439 , H04N21/485 , G06T13/40
Abstract: 本说明书实施例提供一种数字人交互视频的生成方法以及生成设备。在该方法中,生成设备在获得目标语音后,可以从预先构建的素材库中获得基础视频和面部图集合,通过将目标语音中每个原始音素分别映射为多个关键音素中一个,可以得到目标语音对应的关键音素切换信息,并且,基于面部图集合以及关键音素切换信息,可以生成与目标语音中的音素变化情况匹配的目标面部图序列,进而将目标面部图序列贴合至基础视频中的数字人的面部区域得到目标视频。
-
公开(公告)号:CN118691721A
公开(公告)日:2024-09-24
申请号:CN202410692380.3
申请日:2024-05-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T13/40 , G06T15/00 , G06T15/08 , G06T15/20 , G06V40/10 , G06V40/16 , G06V10/82 , G06N3/045 , G06N3/0475 , G06N3/09
Abstract: 本说明书实施例提供一种训练生成模型的方法和装置,其中生成模型用于生成人像渲染数据。训练方法包括,首先利用多个不同人像I D的多个视频,进行多轮联合训练。其中,针对任意目标I D的联合训练包括,利用身份编码器,从目标I D对应的目标视频的视频帧中提取I D专有特征,其中包括,目标I D外形特征、目标I D超网络参数。将目标I D超网络参数施加于生成模型的I D专用部分,得到改造的生成模型;然后利用改造的生成模型处理驱动信号和目标I D外形特征,得到渲染数据。根据渲染数据和目标视频,更新身份编码器和生成模型中的共享部分。联合训练之后,还可以执行针对特定I D的专用训练,得到特定I D专用的生成模型。
-
公开(公告)号:CN118429491A
公开(公告)日:2024-08-02
申请号:CN202410525780.5
申请日:2024-04-28
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T13/40 , G06T15/00 , G06T15/08 , G06T17/10 , G06T17/20 , G06V40/16 , G06V40/20 , G06V10/82 , G06V10/80 , G06F18/25 , G10L25/03 , G10L25/30 , G06N3/0455 , G06N3/09 , H04N21/44 , H04N21/81
Abstract: 本说明书实施例提供一种生成动态人像的方法和装置。方法包括:基于第一人像图片,提取面部的表情特征以及躯干特征;并提取第一语音片段对应的音频特征。利用第一神经网络处理原始空间中任意的第一空间位置和面部特征,得到与面部相关的第一变形特征,并通过叠加第一变形特征得到第二空间位置,其中面部特征包括表情特征和音频特征。然后,利用第二神经网络处理第二空间位置和躯干特征,得到与躯干相关的第二变形特征,并通过叠加第二变形特征得到第三空间位置。接着利用静态网络模块处理第三空间位置,得到对应的颜色和体密度。各个空间位置的颜色和体密度,用于渲染生成第一语音片段对应的第二人像图片。
-
公开(公告)号:CN116843798A
公开(公告)日:2023-10-03
申请号:CN202310810626.8
申请日:2023-07-03
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06T13/00
Abstract: 本说明书实施例提供了动画生成方法、模型训练方法及装置,动画生成方法的一具体实施方式包括:获取用户针对目标音频自定义的情感序列,情感序列包括按时序排列的若干情感类别,各情感类别用于指示待生成的动画中呈现的面部情感或表情;将目标音频和情感序列输入到参数预测模型进行模型处理,得到参数序列,参数序列包括按时序排列的多个参数组;根据各个参数组,生成对应的包括面部的动画片段,从而生成目标动画。生成的动画可以指示按照时序排列的一系列的情感或表情,生成的动画的生动性较强。
-
-
-
-
-
-
-
-
-