一种用于多说话者和多语言语音合成的端到端神经系统

    公开(公告)号:CN116601702A

    公开(公告)日:2023-08-15

    申请号:CN202180080711.2

    申请日:2021-09-13

    Abstract: 系统被配置用于生成、训练和利用TTS(文本到语音)模型,TTS模型配置有变化适配器组件。变化适配器组件生成并应用隐式和显式数据,用于细化和改进TTS模型的声学模型部分对经编码的音素数据的处理,并且使得由TTS模型生成的预测的频谱图被有效且准确地创建,用于由声码器以对应于正在处理的文本数据的期望的目标语言和目标说话者语体风格进行渲染。通过TTS模型所使用的编码和解码构象器的改变,诸如通过在编码/解码构象器堆栈中的自注意处理之前应用卷积处理,变化适配器组件所实现的效率和准确性还可以进一步受益。

    基于文本的语音生成
    2.
    发明公开

    公开(公告)号:CN115602145A

    公开(公告)日:2023-01-13

    申请号:CN202110721773.9

    申请日:2021-06-28

    Abstract: 根据本公开的实现,提出了一种基于文本生成语音的方案。在该方案中,生成与文本对应的初始音素序列,初始音素序列包括多个音素的特征表示。通过在初始音素序列中插入附加音素的特征表示来生成第一音素序列,附加音素与自然口语的特性有关。通过利用与多个音素和附加音素中的音素对应的专家模型来确定音素的持续时间,基于第一音素序列来生成第二音素序列。基于第二音素序列,确定与文本对应的自然口语类型的语音。以此方式,该方案能够基于自然口语类型的附加音素和多个专家模型来生成具有多变韵律的更真实的自然口语类型的语音。

    说唱生成
    3.
    发明公开
    说唱生成 审中-实审

    公开(公告)号:CN115547278A

    公开(公告)日:2022-12-30

    申请号:CN202110732470.7

    申请日:2021-06-30

    Inventor: 谭旭 秦涛 刘铁岩

    Abstract: 根据本公开的实现,提出了一种用于说唱生成的方案。在该方案中,获取与说唱的第一部分相对应的输入序列。在输入序列中,第一部分的同一语句中的各个词按逆序排列,并且第一部分的节拍的节拍标识与对应于节拍的词相邻。确定分别与输入序列相对应的文本表示序列和押韵表示序列。基于文本表示序列和押韵表示序列,根据说唱生成模型,生成说唱的第二部分。以此方式,可以生成既押韵又具有节奏的说唱。

    语音合成和语音识别
    4.
    发明公开

    公开(公告)号:CN113948064A

    公开(公告)日:2022-01-18

    申请号:CN202010620533.5

    申请日:2020-06-30

    Abstract: 根据本公开的实现,提出了用于语音合成和语音识别的方案。根据该方案,支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型,以支持目标语言。然后,基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型,同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式,该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。

Patent Agency Ranking