-
公开(公告)号:CN115362497A
公开(公告)日:2022-11-18
申请号:CN202180026145.7
申请日:2021-02-15
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算系统,包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录,该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入,一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态,一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记,输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。