-
公开(公告)号:CN119741405A
公开(公告)日:2025-04-01
申请号:CN202510260633.4
申请日:2025-03-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
-
公开(公告)号:CN119648874A
公开(公告)日:2025-03-18
申请号:CN202411486623.4
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
-