-
公开(公告)号:CN119741405A
公开(公告)日:2025-04-01
申请号:CN202510260633.4
申请日:2025-03-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
-
公开(公告)号:CN112669424B
公开(公告)日:2024-05-31
申请号:CN202011552776.6
申请日:2020-12-24
Applicant: 科大讯飞股份有限公司
IPC: G06T13/80
Abstract: 本申请提供了一种表情动画生成方法、装置、设备及存储介质,其中,方法包括:获取目标图片和目标驱动数据,目标图片为指定动画人物的图片,目标驱动数据为决定指定动画人物脸部动作的数据;根据目标图片获取动画特征点,作为目标图片对应的参考信息;建立目标图片对应的参考信息与目标图片的目标映射关系;基于目标图片、目标驱动数据、目标图片对应的参考信息和目标映射关系,生成指定动画人物的表情动画。本申请提供的表情动画方法可基于指定动画人物的图片以及决定指定动画人物脸部动作的驱动数据自动生成指定动画人物的表情动画,由于动画的生成过程不需要人工参与,因此,节省了人工成本,降低了时间成本,提高了动画生成效率。
-
公开(公告)号:CN114299225B
公开(公告)日:2025-04-04
申请号:CN202111524469.1
申请日:2021-12-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种动作图像生成方法、模型构建方法、计算机设备及存储介质,其中,该模型构建方法包括:获取目标人物的第一图像集和第二图像集,第一图像集和第二图像集包括关于目标人物动作的序列图像;根据第一图像集的序列图像进行三维重建,得到多个第一3D模型;获取目标人物的纹理图,根据纹理图对所述多个第一3D模型进行贴图,得到多个纹理贴图;对多个第一3D模型进行投影,得到多个2D投影图像;根据第二图像集的序列图像、2D投影图像和纹理贴图构建动作生成模型。该动作生成模型可以生成更为真实的动作图像,即动作图像包括更多细节,由此可以提高用户的体验度。
-
公开(公告)号:CN119648874A
公开(公告)日:2025-03-18
申请号:CN202411486623.4
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
-
公开(公告)号:CN115908657A
公开(公告)日:2023-04-04
申请号:CN202211435654.8
申请日:2022-11-16
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06T15/04 , G06T19/00 , G06N3/0455 , G06F40/30
Abstract: 本申请提供了一种虚拟形象的生成方法、装置、设备及存储介质,具体实现方案为:利用文本与纹理的特征库,确定所述待处理文本数据对应的纹理特征;其中,所述文本与纹理的特征库中记录有文本以及与文本对应的纹理特征;基于所述待处理文本数据和所述纹理特征生成虚拟形象的语义特征;基于所述语义特征生成虚拟形象。根据本申请的技术方案,能够降低虚拟形象的生成难度,提升虚拟形象的生成效率。
-
公开(公告)号:CN109783684B
公开(公告)日:2021-07-06
申请号:CN201910072964.X
申请日:2019-01-25
Applicant: 科大讯飞股份有限公司
IPC: G06F16/70
Abstract: 本申请提供了一种视频的情感识别方法、装置、设备及可读存储介质,方法包括:获取待识别视频,并基于指定的边界划分依据对待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请提供的情感识别方法具有较高的识别准确度。
-
公开(公告)号:CN112669424A
公开(公告)日:2021-04-16
申请号:CN202011552776.6
申请日:2020-12-24
Applicant: 科大讯飞股份有限公司
IPC: G06T13/80
Abstract: 本申请提供了一种表情动画生成方法、装置、设备及存储介质,其中,方法包括:获取目标图片和目标驱动数据,目标图片为指定动画人物的图片,目标驱动数据为决定指定动画人物脸部动作的数据;根据目标图片获取动画特征点,作为目标图片对应的参考信息;建立目标图片对应的参考信息与目标图片的目标映射关系;基于目标图片、目标驱动数据、目标图片对应的参考信息和目标映射关系,生成指定动画人物的表情动画。本申请提供的表情动画方法可基于指定动画人物的图片以及决定指定动画人物脸部动作的驱动数据自动生成指定动画人物的表情动画,由于动画的生成过程不需要人工参与,因此,节省了人工成本,降低了时间成本,提高了动画生成效率。
-
-
-
-
-
-