-
公开(公告)号:CN111954903A
公开(公告)日:2020-11-17
申请号:CN201880091361.8
申请日:2018-12-11
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。
-
公开(公告)号:CN111954903B
公开(公告)日:2024-03-15
申请号:CN201880091361.8
申请日:2018-12-11
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。
-
公开(公告)号:CN117597728A
公开(公告)日:2024-02-23
申请号:CN202280046394.7
申请日:2022-04-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
-
-