-
公开(公告)号:CN116057534A
公开(公告)日:2023-05-02
申请号:CN202180052809.7
申请日:2021-06-15
Applicant: 微软技术许可有限责任公司
IPC: G06F40/295
Abstract: 用于语音识别的新颖解决方案提供了用于自动语音识别(ASR)的上下文拼写校正(CSC)。所公开的示例包括:接收音频流;对该音频流执行ASR处理以产生ASR假设;接收上下文列表;以及至少基于该ASR假设和该上下文列表来执行拼写校正以产生输出文本序列。在ASR模型之上使用上下文拼写校正(CSC)模型,这排除了改变原始ASR模型的需要。这准许基于上下文数据的运行时用户定制,即使对于大型上下文列表也是如此。一些示例包括过滤针对音频流的ASR假设,并且至少基于ASR假设过滤来确定是否要触发针对该ASR假设的拼写校正。一些示例包括使用具有上下文短语的经预处理转录来生成文本到语音(TTS)音频,以训练CSC模型。
-
公开(公告)号:CN117256029A
公开(公告)日:2023-12-19
申请号:CN202280031186.X
申请日:2022-01-18
Applicant: 微软技术许可有限责任公司
IPC: G10L25/30
Abstract: 提供了用于生成轻量级、高质量的流式文本到语音(TTS)系统的系统和方法。例如,一些公开的系统被配置成获得包括卷积神经网络的一个或多个层的第一模型。该卷积神经网络的每一层被配置成从先前的输入生成新的输出。该系统还获得包括递归神经网络的第二模型。在获得该第一模型和该第二模型之后,系统被配置成以并行架构编译该卷积神经网络的该一个或多个层和该递归神经网络以生成机器学习模块,使得该机器学习模块的每个模型被配置成同时接收输入。
-
公开(公告)号:CN117597728A
公开(公告)日:2024-02-23
申请号:CN202280046394.7
申请日:2022-04-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
-
公开(公告)号:CN116601702A
公开(公告)日:2023-08-15
申请号:CN202180080711.2
申请日:2021-09-13
Applicant: 微软技术许可有限责任公司
IPC: G10L25/30
Abstract: 系统被配置用于生成、训练和利用TTS(文本到语音)模型,TTS模型配置有变化适配器组件。变化适配器组件生成并应用隐式和显式数据,用于细化和改进TTS模型的声学模型部分对经编码的音素数据的处理,并且使得由TTS模型生成的预测的频谱图被有效且准确地创建,用于由声码器以对应于正在处理的文本数据的期望的目标语言和目标说话者语体风格进行渲染。通过TTS模型所使用的编码和解码构象器的改变,诸如通过在编码/解码构象器堆栈中的自注意处理之前应用卷积处理,变化适配器组件所实现的效率和准确性还可以进一步受益。
-
-
-