-
公开(公告)号:CN113470615B
公开(公告)日:2024-03-12
申请号:CN202010177212.2
申请日:2020-03-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/04 , G10L13/047 , G10L13/08
Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。
-
公开(公告)号:CN114203147A
公开(公告)日:2022-03-18
申请号:CN202010885556.9
申请日:2020-08-28
Applicant: 微软技术许可有限责任公司
Abstract: 各系统被配置成用于通过以下操作来生成由目标说话者的声音音色以及源说话者的韵律样式所表征的频谱图数据:将源说话者数据的波形转换成语音后验图(PPG)数据,从源说话者数据中提取附加韵律特征,以及基于PPG数据和所提取的韵律特征来生成频谱图。各系统被配置成利用/训练机器学习模型以用于生成频谱图数据以及用于用所生成的频谱图数据来训练神经的、文本到语音的模型。
-
公开(公告)号:CN118116361A
公开(公告)日:2024-05-31
申请号:CN202410240248.9
申请日:2020-03-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/04 , G10L13/047 , G10L13/08
Abstract: 本公开提供了用于训练声学模型的方法和装置,该声学模型实现跨讲话者风格转移且至少包括风格编码器。获得训练数据,其至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征。通过声学模型,至少基于第一文本、第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征,第一转移风格嵌入向量是由风格编码器基于风格参考声学特征来生成的。通过声学模型的副本,至少基于第二文本、第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征,第二转移风格嵌入向量是由风格编码器的副本基于第一转移声学特征来生成的。利用风格参考声学特征和第二转移声学特征来计算循环重构损失。
-
公开(公告)号:CN113470615A
公开(公告)日:2021-10-01
申请号:CN202010177212.2
申请日:2020-03-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/04 , G10L13/047 , G10L13/08
Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。
-
-
-