发明授权
- 专利标题: 基于音频驱动角色口型的方法及系统
-
申请号: CN202311264980.1申请日: 2023-09-28
-
公开(公告)号: CN116994600B公开(公告)日: 2023-12-12
- 发明人: 郭勇 , 苑朋飞 , 靳世凯 , 王彭 , 庄麒达
- 申请人: 中影年年(北京)文化传媒有限公司
- 申请人地址: 北京市昌平区北七家镇王府街32号北京顺厚寓商务有限公司内6304号
- 专利权人: 中影年年(北京)文化传媒有限公司
- 当前专利权人: 中影年年(北京)文化传媒有限公司
- 当前专利权人地址: 北京市昌平区北七家镇王府街32号北京顺厚寓商务有限公司内6304号
- 代理机构: 深圳汉林汇融知识产权代理事务所
- 代理商 刘临利
- 主分类号: G10L21/10
- IPC分类号: G10L21/10 ; G10L25/03 ; G10L25/30
摘要:
本申请公开了一种基于音频驱动角色口型的方法及系统。其首先获取数字人驱动音频,接着,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,然后,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令。其中,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;以及,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。这样,可以利用深度神经网络从音频信号中提取出语音特征,并将这些特征自动化地映射到角色的口型参数上,从而实现音
公开/授权文献
- CN116994600A 基于音频驱动角色口型的方法及系统 公开/授权日:2023-11-03