-
公开(公告)号:CN116783649A
公开(公告)日:2023-09-19
申请号:CN202180092220.X
申请日:2021-11-15
Applicant: 微软技术许可有限责任公司
IPC: G10L15/06
Abstract: 提供了一种用于标识目标数据集的系统和方法,其被配置成促进包括在自动语音识别系统中的声学模型的准确度的改进。系统获得测试数据集,该测试数据集包括(i)具有自然语音话语的音频数据和(ii)该自然语音话语的转录。系统基于自然语音话语的转录来生成包括具有合成语音话语的音频数据的文本转语音数据集。系统将测试数据集和文本转语音数据集应用于声学模型以分别获得第一声学模型输出和第二声学模型输出。系统标识第一声学模型输出中的第一错误集和第二声学模型输出中的第二错误集。最终,声学模型错误率基于比较第一错误集和第二错误集被生成。