基于音频驱动角色口型的方法及系统

发明授权

请登陆查看更多内容

专利标题： 基于音频驱动角色口型的方法及系统
申请号： CN202311264980.1

申请日： 2023-09-28
公开(公告)号： CN116994600B

公开(公告)日： 2023-12-12
发明人: 郭勇 , 苑朋飞 , 靳世凯 , 王彭 , 庄麒达
申请人： 中影年年(北京)文化传媒有限公司
申请人地址： 北京市昌平区北七家镇王府街32号北京顺厚寓商务有限公司内6304号
专利权人： 中影年年(北京)文化传媒有限公司
当前专利权人： 中影年年(北京)文化传媒有限公司
当前专利权人地址： 北京市昌平区北七家镇王府街32号北京顺厚寓商务有限公司内6304号
代理机构： 深圳汉林汇融知识产权代理事务所
代理商 刘临利
主分类号： G10L21/10
IPC分类号： G10L21/10 ; G10L25/03 ; G10L25/30

摘要：

本申请公开了一种基于音频驱动角色口型的方法及系统。其首先获取数字人驱动音频，接着，对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量，然后，基于所述驱动音频波形语义全局特征向量，生成数字人口型驱动控制指令。其中，对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量，包括：对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列；以及，从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。这样，可以利用深度神经网络从音频信号中提取出语音特征，并将这些特征自动化地映射到角色的口型参数上，从而实现音

公开/授权文献

CN116994600A 基于音频驱动角色口型的方法及系统公开/授权日：2023-11-03

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/06	.将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理（G10L15/26优先）
G10L21/10	..转换成可视信息