-
公开(公告)号:CN107077841A
公开(公告)日:2017-08-18
申请号:CN201580031571.4
申请日:2015-06-12
Applicant: 微软技术许可有限责任公司
Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。
-
公开(公告)号:CN116057534A
公开(公告)日:2023-05-02
申请号:CN202180052809.7
申请日:2021-06-15
Applicant: 微软技术许可有限责任公司
IPC: G06F40/295
Abstract: 用于语音识别的新颖解决方案提供了用于自动语音识别(ASR)的上下文拼写校正(CSC)。所公开的示例包括:接收音频流;对该音频流执行ASR处理以产生ASR假设;接收上下文列表;以及至少基于该ASR假设和该上下文列表来执行拼写校正以产生输出文本序列。在ASR模型之上使用上下文拼写校正(CSC)模型,这排除了改变原始ASR模型的需要。这准许基于上下文数据的运行时用户定制,即使对于大型上下文列表也是如此。一些示例包括过滤针对音频流的ASR假设,并且至少基于ASR假设过滤来确定是否要触发针对该ASR假设的拼写校正。一些示例包括使用具有上下文短语的经预处理转录来生成文本到语音(TTS)音频,以训练CSC模型。
-
公开(公告)号:CN114203147A
公开(公告)日:2022-03-18
申请号:CN202010885556.9
申请日:2020-08-28
Applicant: 微软技术许可有限责任公司
Abstract: 各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据:将源说话者数据的波形转换成语音后验图(PPG)数据,从源说话者数据中提取附加韵律特征,以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。
-
公开(公告)号:CN116235244A
公开(公告)日:2023-06-06
申请号:CN202180061101.8
申请日:2021-04-26
Applicant: 微软技术许可有限责任公司
IPC: G10L13/08
Abstract: 一种用于从用户应用接收文本数据的混合文本到语音(TTS)系统的系统和方法;确定所接收的文本数据从该高速缓存中丢失;向远程TTS引擎并向设备中的TTS引擎两者发送所接收的文本数据;从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据;以及基于选择策略来选择或组合来自该远程TTS引擎或该设备中的该TTS引擎的语音数据。该语音数据被传送到该用户应用。
-
公开(公告)号:CN107077841B
公开(公告)日:2020-10-16
申请号:CN201580031571.4
申请日:2015-06-12
Applicant: 微软技术许可有限责任公司
Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。
-
公开(公告)号:CN107077638A
公开(公告)日:2017-08-18
申请号:CN201580031721.1
申请日:2015-06-10
Applicant: 微软技术许可有限责任公司
Abstract: 本技术涉及利用递归神经网络(RNN)执行字母到声音的转换。RNN可以实现为用于进行字母到声音的转换的RNN模块。RNN模块接收文本输入,并将文本转换为对应的音素。在确定对应的音素时,RNN模块可以分析文本的字母和在被分析字母周围的字母。RNN模块还可以以相反次序分析文本的字母。RNN模块还可以接收关于输入文本的上下文信息。字母到声音转换于是还可以基于接收到的上下文信息。确定出的音素可以用于根据输入文本生成合成语音。
-
公开(公告)号:CN117256029A
公开(公告)日:2023-12-19
申请号:CN202280031186.X
申请日:2022-01-18
Applicant: 微软技术许可有限责任公司
IPC: G10L25/30
Abstract: 提供了用于生成轻量级、高质量的流式文本到语音(TTS)系统的系统和方法。例如,一些公开的系统被配置成获得包括卷积神经网络的一个或多个层的第一模型。该卷积神经网络的每一层被配置成从先前的输入生成新的输出。该系统还获得包括递归神经网络的第二模型。在获得该第一模型和该第二模型之后,系统被配置成以并行架构编译该卷积神经网络的该一个或多个层和该递归神经网络以生成机器学习模块,使得该机器学习模块的每个模型被配置成同时接收输入。
-
公开(公告)号:CN114938679A
公开(公告)日:2022-08-23
申请号:CN202080092553.8
申请日:2020-11-03
Applicant: 微软技术许可有限责任公司
IPC: G10L13/02
Abstract: 系统被配置成通过以下操作来以个性化话音生成文本到语音数据:在从特定用户收集的自然语音数据上训练文本到语音机器学习模型,确认从其收集数据的用户的身份,以及授权来自用户的使用个性化话音来生成新语音数据的请求。系统被进一步配置成用所生成的个性化语音数据来将机器学习模型训练为神经文本到语音模型。
-
公开(公告)号:CN113948064A
公开(公告)日:2022-01-18
申请号:CN202010620533.5
申请日:2020-06-30
Applicant: 微软技术许可有限责任公司
Abstract: 根据本公开的实现,提出了用于语音合成和语音识别的方案。根据该方案,支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型,以支持目标语言。然后,基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型,同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式,该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。
-
公开(公告)号:CN117597728A
公开(公告)日:2024-02-23
申请号:CN202280046394.7
申请日:2022-04-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
-
-
-
-
-
-
-
-
-