-
公开(公告)号:CN117223055A
公开(公告)日:2023-12-12
申请号:CN202180059403.1
申请日:2021-05-08
Applicant: 微软技术许可有限责任公司
IPC: G10L19/018
Abstract: 用于认证数字音频的解决方案包括:使用第一密钥生成第一频带限制水印,使用第二密钥生成第二频带限制水印,其中该第二水印的带宽不与该第一水印的带宽重叠;以及将该第一水印和该第二水印嵌入到该数字音频文件的片段中。各解决方案还包括使用该第一密钥针对该第一水印确定该数字音频文件的片段的第一水印分数;使用该第二密钥针对该第二水印确定该数字音频文件的该片段的第二水印分数;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及生成指示该数字音频文件是否带水印的报告。在一些示例中,各解决方案还可以嵌入和解码消息。
-
公开(公告)号:CN112352275A
公开(公告)日:2021-02-09
申请号:CN201880091963.3
申请日:2018-12-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/00
Abstract: 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。
-
公开(公告)号:CN112185337A
公开(公告)日:2021-01-05
申请号:CN201910588478.3
申请日:2019-07-02
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器,基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器,基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。
-
公开(公告)号:CN111954903A
公开(公告)日:2020-11-17
申请号:CN201880091361.8
申请日:2018-12-11
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。
-
公开(公告)号:CN106688034B
公开(公告)日:2020-11-13
申请号:CN201580048224.2
申请日:2015-09-07
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 本发明公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。
-
公开(公告)号:CN113470662B
公开(公告)日:2024-08-27
申请号:CN202010244661.4
申请日:2020-03-31
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于生成和使用文本到语音(TTS)数据以供改进的语音识别模型的系统、方法和设备。利用关键词无关的基线训练数据来训练主模型。在一些实例中,利用新的TTS训练数据来修改主模型的声学和语言模型子组件。在一些实例中,新的TTS训练是从用于在基线训练数据中代表不足的关键词的多说话者神经TTS系统获得的。在一些实例中,新的TTS训练数据被用于关键词检出(KWS)应用中的发音学习和关键词相关置信评分的归一化。在一些实例中,新的TTS训练数据被用于语音识别模型中的快速说话者适配。
-
公开(公告)号:CN112185337B
公开(公告)日:2024-04-26
申请号:CN201910588478.3
申请日:2019-07-02
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提供了用于通过多语言神经文本到语音(TTS)合成来生成语音的方法和装置。可以接收采用至少第一语言的文本输入。可以通过讲话者编码器来提供目标讲话者的讲话者潜在空间信息。可以通过语言编码器来提供第二语言的语言潜在空间信息。可以通过声学特征预测器,基于所述文本输入、所述讲话者潜在空间信息和所述第二语言的语言潜在空间信息来生成至少一个声学特征。可以通过神经声码器,基于所述至少一个声学特征来生成与所述文本输入对应的语音波形。
-
公开(公告)号:CN111954903B
公开(公告)日:2024-03-15
申请号:CN201880091361.8
申请日:2018-12-11
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08 , G10L13/033
Abstract: 提供了用于通过多说话者神经文本到语音(TTS)合成来生成语音的方法。可以接收文本输入(1410)。可以通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息(1420)。可以通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征(1430)。可以通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形(1440)。
-
-
公开(公告)号:CN114938679A
公开(公告)日:2022-08-23
申请号:CN202080092553.8
申请日:2020-11-03
Applicant: 微软技术许可有限责任公司
IPC: G10L13/02
Abstract: 系统被配置成通过以下操作来以个性化话音生成文本到语音数据:在从特定用户收集的自然语音数据上训练文本到语音机器学习模型,确认从其收集数据的用户的身份,以及授权来自用户的使用个性化话音来生成新语音数据的请求。系统被进一步配置成用所生成的个性化语音数据来将机器学习模型训练为神经文本到语音模型。
-
-
-
-
-
-
-
-
-