跨讲话者风格转移语音合成

    公开(公告)号:CN113470615B

    公开(公告)日:2024-03-12

    申请号:CN202010177212.2

    申请日:2020-03-13

    Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

    跨讲话者风格转移语音合成
    3.
    发明公开

    公开(公告)号:CN118116361A

    公开(公告)日:2024-05-31

    申请号:CN202410240248.9

    申请日:2020-03-13

    Abstract: 本公开提供了用于训练声学模型的方法和装置,该声学模型实现跨讲话者风格转移且至少包括风格编码器。获得训练数据,其至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征。通过声学模型,至少基于第一文本、第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征,第一转移风格嵌入向量是由风格编码器基于风格参考声学特征来生成的。通过声学模型的副本,至少基于第二文本、第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征,第二转移风格嵌入向量是由风格编码器的副本基于第一转移声学特征来生成的。利用风格参考声学特征和第二转移声学特征来计算循环重构损失。

    跨讲话者风格转移语音合成

    公开(公告)号:CN113470615A

    公开(公告)日:2021-10-01

    申请号:CN202010177212.2

    申请日:2020-03-13

    Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。

Patent Agency Ranking