-
公开(公告)号:CN112489618A
公开(公告)日:2021-03-12
申请号:CN201910864208.0
申请日:2019-09-12
Applicant: 微软技术许可有限责任公司
IPC: G10L13/047 , G10L13/07 , G10L13/08 , G10L25/30
Abstract: 本公开提供了一种用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入。可以生成所述文本输入的音素特征。可以基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征。可以基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。
-
-
公开(公告)号:CN106688034A
公开(公告)日:2017-05-17
申请号:CN201580048224.2
申请日:2015-09-07
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
CPC classification number: G10L13/027 , G10L13/033
Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。
-
公开(公告)号:CN114203147A
公开(公告)日:2022-03-18
申请号:CN202010885556.9
申请日:2020-08-28
Applicant: 微软技术许可有限责任公司
Abstract: 各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据:将源说话者数据的波形转换成语音后验图(PPG)数据,从源说话者数据中提取附加韵律特征,以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。
-
公开(公告)号:CN113470662A
公开(公告)日:2021-10-01
申请号:CN202010244661.4
申请日:2020-03-31
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于生成和使用文本到语音(TTS)数据以供改进的语音识别模型的系统、方法和设备。利用关键词无关的基线训练数据来训练主模型。在一些实例中,利用新的TTS训练数据来修改主模型的声学和语言模型子组件。在一些实例中,新的TTS训练是从用于在基线训练数据中代表不足的关键词的多说话者神经TTS系统获得的。在一些实例中,新的TTS训练数据被用于关键词检出(KWS)应用中的发音学习和关键词相关置信评分的归一化。在一些实例中,新的TTS训练数据被用于语音识别模型中的快速说话者适配。
-
-
-
-