-
公开(公告)号:CN118093818A
公开(公告)日:2024-05-28
申请号:CN202410221381.X
申请日:2024-02-28
Applicant: 航天宏图信息技术股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/34 , G06F9/50
Abstract: 本发明提供了一种驱动数字人语音问答和做动作的方法、装置和电子设备,该方法中,服务器中只有ASR和TTS,资源占用少,大部分工作是由驱动数字人语音问答和做动作的应用程序(即前端)完成的,整个过程中,ASR能够对实时音频源码文件进行文本识别,进而根据得到的实时文本确定完整问题文本,大模型返回实时应答文本、TTS将实时应答文本转换为实时应答语音和/或动作标签,进而驱动预先生成的SVGA动画库中的数字人进行实时应答和/或执行对应动作,流式传输处理(即都是实时得到的),降低了ASR、TTS和数字人应答的延时,速度更快,预先生成的SVGA动画库能够使得数字人在进行应答语音和/或对应动作的播放时,更加流畅,不卡顿,不受网络波动的影响。