-
-
-
公开(公告)号:CN113628609A
公开(公告)日:2021-11-09
申请号:CN202010387249.8
申请日:2020-05-09
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提供了用于自动音频内容生成的方法和装置。可以获得文本。可以构建与所述文本对应的上下文。可以至少基于所述上下文来确定参考因素,所述参考因素至少包括与所述文本对应的角色类别和/或角色。可以至少基于所述文本和所述参考因素来生成与所述文本对应的语音波形。
-
公开(公告)号:CN110998716B
公开(公告)日:2024-01-23
申请号:CN201880051796.X
申请日:2018-06-21
Applicant: 微软技术许可有限责任公司
IPC: G10L15/06 , G10L15/065 , G10L15/16 , G10L25/30 , G06N3/0442 , G06N3/084 , G06N3/096
Abstract: 经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练,以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签,而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较,并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。
-
公开(公告)号:CN110998716A
公开(公告)日:2020-04-10
申请号:CN201880051796.X
申请日:2018-06-21
Applicant: 微软技术许可有限责任公司
Abstract: 经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练,以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签,而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较,并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。
-
-
-
-