-
公开(公告)号:CN116783649A
公开(公告)日:2023-09-19
申请号:CN202180092220.X
申请日:2021-11-15
Applicant: 微软技术许可有限责任公司
IPC: G10L15/06
Abstract: 提供了一种用于标识目标数据集的系统和方法,其被配置成促进包括在自动语音识别系统中的声学模型的准确度的改进。系统获得测试数据集,该测试数据集包括(i)具有自然语音话语的音频数据和(ii)该自然语音话语的转录。系统基于自然语音话语的转录来生成包括具有合成语音话语的音频数据的文本转语音数据集。系统将测试数据集和文本转语音数据集应用于声学模型以分别获得第一声学模型输出和第二声学模型输出。系统标识第一声学模型输出中的第一错误集和第二声学模型输出中的第二错误集。最终,声学模型错误率基于比较第一错误集和第二错误集被生成。
-
公开(公告)号:CN117616419A
公开(公告)日:2024-02-27
申请号:CN202280047820.9
申请日:2022-04-29
Applicant: 微软技术许可有限责任公司
IPC: G06F40/284 , G10L15/26 , G06F40/151
Abstract: 用于语音识别(SR)中的定制显示后处理(DPP)的解决方案使用定制的多阶段DPP流水线,该DPP流水线将SR令牌流从词汇形式变换为显示形式。该DPP流水线的第一变换阶段,依次,由上游过滤器、基本模型阶段和下游过滤器接收该令牌流,并且将该令牌流的第一方面(例如,不流畅、反向文本规范化(ITN)、大写等)从词汇形式变换成显示形式。上游过滤器和/或下游过滤器改变该令牌流,以将DPP流水线的默认行为改变为定制行为。DPP流水线的附加变换阶段执行进一步的变换,从而允许以为特定用户定制的显示格式输出最终文本。这准许每个用户有效地利用通用基线DPP流水线来生成定制输出。
-