用于文本到语音的超结构循环神经网络

    公开(公告)号:CN107077841A

    公开(公告)日:2017-08-18

    申请号:CN201580031571.4

    申请日:2015-06-12

    Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。

    用于自动语音识别(ASR)的上下文拼写校正(CSC)

    公开(公告)号:CN116057534A

    公开(公告)日:2023-05-02

    申请号:CN202180052809.7

    申请日:2021-06-15

    Abstract: 用于语音识别的新颖解决方案提供了用于自动语音识别(ASR)的上下文拼写校正(CSC)。所公开的示例包括:接收音频流;对该音频流执行ASR处理以产生ASR假设;接收上下文列表;以及至少基于该ASR假设和该上下文列表来执行拼写校正以产生输出文本序列。在ASR模型之上使用上下文拼写校正(CSC)模型,这排除了改变原始ASR模型的需要。这准许基于上下文数据的运行时用户定制,即使对于大型上下文列表也是如此。一些示例包括过滤针对音频流的ASR假设,并且至少基于ASR假设过滤来确定是否要触发针对该ASR假设的拼写校正。一些示例包括使用具有上下文短语的经预处理转录来生成文本到语音(TTS)音频,以训练CSC模型。

    混合文本到语音
    4.
    发明公开

    公开(公告)号:CN116235244A

    公开(公告)日:2023-06-06

    申请号:CN202180061101.8

    申请日:2021-04-26

    Abstract: 一种用于从用户应用接收文本数据的混合文本到语音(TTS)系统的系统和方法;确定所接收的文本数据从该高速缓存中丢失;向远程TTS引擎并向设备中的TTS引擎两者发送所接收的文本数据;从该远程TTS引擎和该设备中的该TTS引擎两者接收语音数据;以及基于选择策略来选择或组合来自该远程TTS引擎或该设备中的该TTS引擎的语音数据。该语音数据被传送到该用户应用。

    用于文本到语音的超结构循环神经网络

    公开(公告)号:CN107077841B

    公开(公告)日:2020-10-16

    申请号:CN201580031571.4

    申请日:2015-06-12

    Abstract: 本技术与利用循环神经网络(RNN)来将文本转换为语音相关。循环神经网络可以被实现为用于确定文本的特性的多个模块。在实施例中,可以利用词性RNN模块、发音RNN模块、语言注音标记RNN模块、以及上下文感知和语义挖掘RNN模块全部。来自RNN模块的特性是通过基于其他RNN模块的输出来确定输入文本的拼音特性的超结构RNN模块来处理。超结构RNN模块可以生成能够由语音合成器转换为可听见的语音的生成序列。生成序列还可以通过全局优化模块在被合成为可听见的语音之前进行优化。

    一种流式、轻量级和高质量的设备神经TTS系统

    公开(公告)号:CN117256029A

    公开(公告)日:2023-12-19

    申请号:CN202280031186.X

    申请日:2022-01-18

    Abstract: 提供了用于生成轻量级、高质量的流式文本到语音(TTS)系统的系统和方法。例如,一些公开的系统被配置成获得包括卷积神经网络的一个或多个层的第一模型。该卷积神经网络的每一层被配置成从先前的输入生成新的输出。该系统还获得包括递归神经网络的第二模型。在获得该第一模型和该第二模型之后,系统被配置成以并行架构编译该卷积神经网络的该一个或多个层和该递归神经网络以生成机器学习模块,使得该机器学习模块的每个模型被配置成同时接收输入。

    语音合成和语音识别
    9.
    发明公开

    公开(公告)号:CN113948064A

    公开(公告)日:2022-01-18

    申请号:CN202010620533.5

    申请日:2020-06-30

    Abstract: 根据本公开的实现,提出了用于语音合成和语音识别的方案。根据该方案,支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型,以支持目标语言。然后,基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型,同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式,该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。

    使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆

    公开(公告)号:CN117597728A

    公开(公告)日:2024-02-23

    申请号:CN202280046394.7

    申请日:2022-04-13

    Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。

Patent Agency Ranking