-
公开(公告)号:CN113470662B
公开(公告)日:2024-08-27
申请号:CN202010244661.4
申请日:2020-03-31
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于生成和使用文本到语音(TTS)数据以供改进的语音识别模型的系统、方法和设备。利用关键词无关的基线训练数据来训练主模型。在一些实例中,利用新的TTS训练数据来修改主模型的声学和语言模型子组件。在一些实例中,新的TTS训练是从用于在基线训练数据中代表不足的关键词的多说话者神经TTS系统获得的。在一些实例中,新的TTS训练数据被用于关键词检出(KWS)应用中的发音学习和关键词相关置信评分的归一化。在一些实例中,新的TTS训练数据被用于语音识别模型中的快速说话者适配。
-
公开(公告)号:CN112420026B
公开(公告)日:2024-06-18
申请号:CN201910783303.8
申请日:2019-08-23
Applicant: 微软技术许可有限责任公司
IPC: G10L15/08 , G10L15/26 , G06F16/332 , G06F16/35
Abstract: 本公开提供了用于优化关键词检索系统的方法和装置。可以生成包含给定关键词的话语文本集合。可以合成与所述话语文本集合相对应的语音信号集合。可以利用所述语音信号集合中的至少一部分语音信号以及所述话语文本集合中与所述至少一部分语音信号相对应的话语文本来优化所述关键词检索系统中的声学模型。
-
公开(公告)号:CN113470662A
公开(公告)日:2021-10-01
申请号:CN202010244661.4
申请日:2020-03-31
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于生成和使用文本到语音(TTS)数据以供改进的语音识别模型的系统、方法和设备。利用关键词无关的基线训练数据来训练主模型。在一些实例中,利用新的TTS训练数据来修改主模型的声学和语言模型子组件。在一些实例中,新的TTS训练是从用于在基线训练数据中代表不足的关键词的多说话者神经TTS系统获得的。在一些实例中,新的TTS训练数据被用于关键词检出(KWS)应用中的发音学习和关键词相关置信评分的归一化。在一些实例中,新的TTS训练数据被用于语音识别模型中的快速说话者适配。
-
公开(公告)号:CN117616419A
公开(公告)日:2024-02-27
申请号:CN202280047820.9
申请日:2022-04-29
Applicant: 微软技术许可有限责任公司
IPC: G06F40/284 , G10L15/26 , G06F40/151
Abstract: 用于语音识别(SR)中的定制显示后处理(DPP)的解决方案使用定制的多阶段DPP流水线,该DPP流水线将SR令牌流从词汇形式变换为显示形式。该DPP流水线的第一变换阶段,依次,由上游过滤器、基本模型阶段和下游过滤器接收该令牌流,并且将该令牌流的第一方面(例如,不流畅、反向文本规范化(ITN)、大写等)从词汇形式变换成显示形式。上游过滤器和/或下游过滤器改变该令牌流,以将DPP流水线的默认行为改变为定制行为。DPP流水线的附加变换阶段执行进一步的变换,从而允许以为特定用户定制的显示格式输出最终文本。这准许每个用户有效地利用通用基线DPP流水线来生成定制输出。
-
公开(公告)号:CN112420026A
公开(公告)日:2021-02-26
申请号:CN201910783303.8
申请日:2019-08-23
Applicant: 微软技术许可有限责任公司
IPC: G10L15/08 , G10L15/26 , G06F16/332 , G06F16/35
Abstract: 本公开提供了用于优化关键词检索系统的方法和装置。可以生成包含给定关键词的话语文本集合。可以合成与所述话语文本集合相对应的语音信号集合。可以利用所述语音信号集合中的至少一部分语音信号以及所述话语文本集合中与所述至少一部分语音信号相对应的话语文本来优化所述关键词检索系统中的声学模型。
-
-
-
-