具有多级别文本信息的神经文本到语音合成

    公开(公告)号:CN112352275B

    公开(公告)日:2024-11-22

    申请号:CN201880091963.3

    申请日:2018-12-13

    Inventor: 明怀平 何磊

    Abstract: 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。

    跨讲话者风格转移语音合成
    14.
    发明公开

    公开(公告)号:CN118116361A

    公开(公告)日:2024-05-31

    申请号:CN202410240248.9

    申请日:2020-03-13

    Abstract: 本公开提供了用于训练声学模型的方法和装置,该声学模型实现跨讲话者风格转移且至少包括风格编码器。获得训练数据,其至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征。通过声学模型,至少基于第一文本、第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征,第一转移风格嵌入向量是由风格编码器基于风格参考声学特征来生成的。通过声学模型的副本,至少基于第二文本、第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征,第二转移风格嵌入向量是由风格编码器的副本基于第一转移声学特征来生成的。利用风格参考声学特征和第二转移声学特征来计算循环重构损失。

    跨讲话者风格转移语音合成

    公开(公告)号:CN113470615A

    公开(公告)日:2021-10-01

    申请号:CN202010177212.2

    申请日:2020-03-13

    Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

    跨讲话者风格转移语音合成

    公开(公告)号:CN113470615B

    公开(公告)日:2024-03-12

    申请号:CN202010177212.2

    申请日:2020-03-13

    Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

    使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆

    公开(公告)号:CN117597728A

    公开(公告)日:2024-02-23

    申请号:CN202280046394.7

    申请日:2022-04-13

    Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。

    合成语音检测
    20.
    发明公开
    合成语音检测 审中-实审

    公开(公告)号:CN115803808A

    公开(公告)日:2023-03-14

    申请号:CN202180044082.8

    申请日:2021-04-21

    Inventor: 王科 何磊

    Abstract: 用于合成语音检测的系统和方法包括接收包括音频的输入样本并提取与该音频中的语音相对应的声学特征。使用多个神经网络来处理所提取的声学特征以输出经抽象特征,并使用池化来生成与该经抽象特征相对应的特征向量。对SSD任务、说话者分类任务和信道分类任务的训练在同一时间使用该特征向量来被执行。合成语音至少使用经训练的SSD任务来被检测。

Patent Agency Ranking