-
公开(公告)号:CN113628609A
公开(公告)日:2021-11-09
申请号:CN202010387249.8
申请日:2020-05-09
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提供了用于自动音频内容生成的方法和装置。可以获得文本。可以构建与所述文本对应的上下文。可以至少基于所述上下文来确定参考因素,所述参考因素至少包括与所述文本对应的角色类别和/或角色。可以至少基于所述文本和所述参考因素来生成与所述文本对应的语音波形。
-
公开(公告)号:CN112489618B
公开(公告)日:2025-02-11
申请号:CN201910864208.0
申请日:2019-09-12
Applicant: 微软技术许可有限责任公司
IPC: G10L13/047 , G10L13/07 , G10L13/08 , G10L25/30
Abstract: 本公开提供了一种用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入。可以生成所述文本输入的音素特征。可以基于与所述文本输入相关联的一组句子来生成所述文本输入的上下文特征。可以基于所述音素特征和所述上下文特征来生成与所述文本输入相对应的语音波形。
-
公开(公告)号:CN112352275B
公开(公告)日:2024-11-22
申请号:CN201880091963.3
申请日:2018-12-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/00
Abstract: 用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。
-
公开(公告)号:CN118116361A
公开(公告)日:2024-05-31
申请号:CN202410240248.9
申请日:2020-03-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/04 , G10L13/047 , G10L13/08
Abstract: 本公开提供了用于训练声学模型的方法和装置,该声学模型实现跨讲话者风格转移且至少包括风格编码器。获得训练数据,其至少包括第一文本、第一讲话者ID、以及与风格参考音频对应的第二文本、第二讲话者ID和风格参考声学特征。通过声学模型,至少基于第一文本、第一讲话者ID以及第一转移风格嵌入向量来生成第一转移声学特征,第一转移风格嵌入向量是由风格编码器基于风格参考声学特征来生成的。通过声学模型的副本,至少基于第二文本、第二讲话者ID以及第二转移风格嵌入向量来生成第二转移声学特征,第二转移风格嵌入向量是由风格编码器的副本基于第一转移声学特征来生成的。利用风格参考声学特征和第二转移声学特征来计算循环重构损失。
-
公开(公告)号:CN113470615A
公开(公告)日:2021-10-01
申请号:CN202010177212.2
申请日:2020-03-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/04 , G10L13/047 , G10L13/08
Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。
-
公开(公告)号:CN112420026A
公开(公告)日:2021-02-26
申请号:CN201910783303.8
申请日:2019-08-23
Applicant: 微软技术许可有限责任公司
IPC: G10L15/08 , G10L15/26 , G06F16/332 , G06F16/35
Abstract: 本公开提供了用于优化关键词检索系统的方法和装置。可以生成包含给定关键词的话语文本集合。可以合成与所述话语文本集合相对应的语音信号集合。可以利用所述语音信号集合中的至少一部分语音信号以及所述话语文本集合中与所述至少一部分语音信号相对应的话语文本来优化所述关键词检索系统中的声学模型。
-
公开(公告)号:CN112420026B
公开(公告)日:2024-06-18
申请号:CN201910783303.8
申请日:2019-08-23
Applicant: 微软技术许可有限责任公司
IPC: G10L15/08 , G10L15/26 , G06F16/332 , G06F16/35
Abstract: 本公开提供了用于优化关键词检索系统的方法和装置。可以生成包含给定关键词的话语文本集合。可以合成与所述话语文本集合相对应的语音信号集合。可以利用所述语音信号集合中的至少一部分语音信号以及所述话语文本集合中与所述至少一部分语音信号相对应的话语文本来优化所述关键词检索系统中的声学模型。
-
公开(公告)号:CN113470615B
公开(公告)日:2024-03-12
申请号:CN202010177212.2
申请日:2020-03-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/04 , G10L13/047 , G10L13/08
Abstract: 本公开提供了用于训练声学模型的方法和装置。所述声学模型可以用于实现跨讲话者风格转移并且至少包括风格编码器。可以获得训练数据,所述训练数据包括与参考音频对应的文本、讲话者标识(ID)、风格ID、以及声学特征。可以通过所述风格编码器,基于所述声学特征来生成参考嵌入向量。可以至少利用所述风格ID和所述讲话者ID对所述参考嵌入向量执行对抗训练,以去除讲话者信息并保留风格信息。可以通过所述风格编码器,至少基于所述经过对抗训练的参考嵌入向量来生成风格嵌入向量。可以至少基于与所述文本对应的状态序列、与所述讲话者ID对应的讲话者嵌入向量、以及所述风格嵌入向量来生成预测的声学特征。
-
公开(公告)号:CN117597728A
公开(公告)日:2024-02-23
申请号:CN202280046394.7
申请日:2022-04-13
Applicant: 微软技术许可有限责任公司
IPC: G10L13/033
Abstract: 提供了用于被配置成零样本学习的经个性化的文本到语音模型的机器学习模型的系统和方法,该模型包括特征提取器、说话者编码器和文本到语音模块。该特征提取器被配置成从与该新的目标说话者相关联的新的目标参考语音中提取声学特征和韵律特征。该说话者编码器被配置成基于从该新的目标参考语音提取的声学特征来生成与该新的目标说话者相对应的说话者嵌入。该文本到语音模块被配置成基于该说话者嵌入和从该新的目标参考语音中提取的该韵律特征来生成与该新的目标说话者相对应的个性化声音,而无需将该文本到语音模块应用于与该新的目标说话者相关联的新的标记的训练数据。
-
公开(公告)号:CN115803808A
公开(公告)日:2023-03-14
申请号:CN202180044082.8
申请日:2021-04-21
Applicant: 微软技术许可有限责任公司
Abstract: 用于合成语音检测的系统和方法包括接收包括音频的输入样本并提取与该音频中的语音相对应的声学特征。使用多个神经网络来处理所提取的声学特征以输出经抽象特征,并使用池化来生成与该经抽象特征相对应的特征向量。对SSD任务、说话者分类任务和信道分类任务的训练在同一时间使用该特征向量来被执行。合成语音至少使用经训练的SSD任务来被检测。
-
-
-
-
-
-
-
-
-