-
公开(公告)号:CN117616419A
公开(公告)日:2024-02-27
申请号:CN202280047820.9
申请日:2022-04-29
Applicant: 微软技术许可有限责任公司
IPC: G06F40/284 , G10L15/26 , G06F40/151
Abstract: 用于语音识别(SR)中的定制显示后处理(DPP)的解决方案使用定制的多阶段DPP流水线,该DPP流水线将SR令牌流从词汇形式变换为显示形式。该DPP流水线的第一变换阶段,依次,由上游过滤器、基本模型阶段和下游过滤器接收该令牌流,并且将该令牌流的第一方面(例如,不流畅、反向文本规范化(ITN)、大写等)从词汇形式变换成显示形式。上游过滤器和/或下游过滤器改变该令牌流,以将DPP流水线的默认行为改变为定制行为。DPP流水线的附加变换阶段执行进一步的变换,从而允许以为特定用户定制的显示格式输出最终文本。这准许每个用户有效地利用通用基线DPP流水线来生成定制输出。
-
公开(公告)号:CN117813651A
公开(公告)日:2024-04-02
申请号:CN202180095035.6
申请日:2021-12-22
Applicant: 微软技术许可有限责任公司
Inventor: S·D·帕塔克 , H·A·海莉尔 , N·帕瑞哈 , P·贝赫雷 , S·常 , C·H·巴索格鲁 , S·W·谭 , E·沙尔马 , J·吴 , 刘阳 , 林恒慷 , A·K·阿加瓦尔
IPC: G10L15/04
Abstract: 提供了用于使用基于前瞻的声学语言特征的智能音频分段的系统和方法。例如,提供了用于获得音频、处理音频、标识音频内的潜在分段边界以及确定是否要在该潜在分段边界处生成分段中断的系统和方法。标识出现在潜在分段边界之后的一个或多个前瞻词,其中生成与该潜在分段边界和一个或多个前瞻词相关联的声学分段分数和语言分段分数。随后,系统基于声学和/或语言分段分数至少达到或超过分段分数阈值来避免在潜在分段边界处生成分段中断或者在潜在分段边界处生成分段中断。
-