-
公开(公告)号:CN117813651A
公开(公告)日:2024-04-02
申请号:CN202180095035.6
申请日:2021-12-22
Applicant: 微软技术许可有限责任公司
Inventor: S·D·帕塔克 , H·A·海莉尔 , N·帕瑞哈 , P·贝赫雷 , S·常 , C·H·巴索格鲁 , S·W·谭 , E·沙尔马 , J·吴 , 刘阳 , 林恒慷 , A·K·阿加瓦尔
IPC: G10L15/04
Abstract: 提供了用于使用基于前瞻的声学语言特征的智能音频分段的系统和方法。例如,提供了用于获得音频、处理音频、标识音频内的潜在分段边界以及确定是否要在该潜在分段边界处生成分段中断的系统和方法。标识出现在潜在分段边界之后的一个或多个前瞻词,其中生成与该潜在分段边界和一个或多个前瞻词相关联的声学分段分数和语言分段分数。随后,系统基于声学和/或语言分段分数至少达到或超过分段分数阈值来避免在潜在分段边界处生成分段中断或者在潜在分段边界处生成分段中断。
-
公开(公告)号:CN114981887B
公开(公告)日:2025-02-14
申请号:CN202080093002.3
申请日:2020-12-15
Applicant: 微软技术许可有限责任公司
Abstract: 实施例可以包括收集第一批次的音频信号的声学特征帧,第一批次的声学特征帧的数目等于第一批次尺寸,将第一批次输入到语音识别网络,响应于检测由语音识别网络输出的单词假设,收集第二批次的音频信号的声学特征帧,第二批次的声学特征帧的数目等于第二批次尺寸,该第二批次尺寸大于第一批次尺寸,并且将第二批次输入到语音识别网络。
-
公开(公告)号:CN114981887A
公开(公告)日:2022-08-30
申请号:CN202080093002.3
申请日:2020-12-15
Applicant: 微软技术许可有限责任公司
Abstract: 实施例可以包括收集第一批次的音频信号的声学特征帧,第一批次的声学特征帧的数目等于第一批次尺寸,将第一批次输入到语音识别网络,响应于检测由语音识别网络输出的单词假设,收集第二批次的音频信号的声学特征帧,第二批次的声学特征帧的数目等于第二批次尺寸,该第二批次尺寸大于第一批次尺寸,并且将第二批次输入到语音识别网络。
-
-