- 专利标题: 语音生成方法、设备、介质和计算机程序产品
-
申请号: CN202411032546.5申请日: 2024-07-30
-
公开(公告)号: CN118972485A公开(公告)日: 2024-11-15
- 发明人: 许益峰 , 张犁 , 唐铭徽
- 申请人: 咪咕音乐有限公司 , 咪咕文化科技有限公司 , 中国移动通信集团有限公司
- 申请人地址: 四川省成都市高新区交子大道575号中海国际中心J座1层103、104号及J座3-10层
- 专利权人: 咪咕音乐有限公司,咪咕文化科技有限公司,中国移动通信集团有限公司
- 当前专利权人: 咪咕音乐有限公司,咪咕文化科技有限公司,中国移动通信集团有限公司
- 当前专利权人地址: 四川省成都市高新区交子大道575号中海国际中心J座1层103、104号及J座3-10层
- 代理机构: 广州三环专利商标代理有限公司 44202专利代理师姚心怡
- 主分类号: H04M1/64
- IPC分类号: H04M1/64 ; H04M3/42 ; H04M3/493 ; G10L17/02 ; G10L15/18 ; G10L25/63 ; G06F16/332 ; G06F16/335 ; G10L13/02 ; G10L21/0208
摘要:
本公开涉及通信技术领域,尤其是提供一种语音生成方法、设备、介质和计算机程序产品。上述语音生成方法包括:在被叫用户激活智能回复功能的情况下,获取主叫用户的音频数据和被叫用户的声纹特征;对音频数据进行语义识别处理,获得主叫用户的情绪信息和意图信息,并基于情绪信息和意图信息生成回复文本;基于声纹特征将回复文本转换为初始语音回复;对初始语音回复进行降噪处理,获得目标语音回复,并向主叫用户发送目标语音回复。本公开通过综合使用语义识别技术、个性化的声纹特征和降噪处理,使得生成的语音回复能真实还原自然人在类似情况下的自然反应,使得智能语音回复更加真实,提高了用户的通话体验。