-
公开(公告)号:CN114981887B
公开(公告)日:2025-02-14
申请号:CN202080093002.3
申请日:2020-12-15
Applicant: 微软技术许可有限责任公司
Abstract: 实施例可以包括收集第一批次的音频信号的声学特征帧,第一批次的声学特征帧的数目等于第一批次尺寸,将第一批次输入到语音识别网络,响应于检测由语音识别网络输出的单词假设,收集第二批次的音频信号的声学特征帧,第二批次的声学特征帧的数目等于第二批次尺寸,该第二批次尺寸大于第一批次尺寸,并且将第二批次输入到语音识别网络。
-
公开(公告)号:CN114981887A
公开(公告)日:2022-08-30
申请号:CN202080093002.3
申请日:2020-12-15
Applicant: 微软技术许可有限责任公司
Abstract: 实施例可以包括收集第一批次的音频信号的声学特征帧,第一批次的声学特征帧的数目等于第一批次尺寸,将第一批次输入到语音识别网络,响应于检测由语音识别网络输出的单词假设,收集第二批次的音频信号的声学特征帧,第二批次的声学特征帧的数目等于第二批次尺寸,该第二批次尺寸大于第一批次尺寸,并且将第二批次输入到语音识别网络。
-
公开(公告)号:CN110998716B
公开(公告)日:2024-01-23
申请号:CN201880051796.X
申请日:2018-06-21
Applicant: 微软技术许可有限责任公司
IPC: G10L15/06 , G10L15/065 , G10L15/16 , G10L25/30 , G06N3/0442 , G06N3/084 , G06N3/096
Abstract: 经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练,以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签,而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较,并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。
-
公开(公告)号:CN110998716A
公开(公告)日:2020-04-10
申请号:CN201880051796.X
申请日:2018-06-21
Applicant: 微软技术许可有限责任公司
Abstract: 经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练,以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签,而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较,并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。
-
公开(公告)号:CN106104673A
公开(公告)日:2016-11-09
申请号:CN201580012496.7
申请日:2015-02-27
Applicant: 微软技术许可有限责任公司
Abstract: 本发明提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。
-
公开(公告)号:CN108701453B
公开(公告)日:2023-04-04
申请号:CN201780014729.6
申请日:2017-02-27
Applicant: 微软技术许可有限责任公司
IPC: G10L15/065 , G06N3/045 , G10L15/16
Abstract: 本文中描述的技术使用模块化模型来处理语音。基于深度学习的声学模型包括不同类型的神经网络层的堆叠。基于深度学习的声学模型的子模块可以用于表示不同的非音素的声学因素,诸如口音来源(例如,母语、非母语)、语音通道(例如,移动、蓝牙、桌面等)、语音应用场景(例如,话音搜索、短消息口述等)和说话者变型(例如,单个说话者或集群说话者)等。本文中描述的技术在第一上下文中使用某些子模块并且在第二上下文中使用第二组子模块。
-
公开(公告)号:CN108701453A
公开(公告)日:2018-10-23
申请号:CN201780014729.6
申请日:2017-02-27
Applicant: 微软技术许可有限责任公司
IPC: G10L15/065 , G06N3/04 , G10L15/16
CPC classification number: G10L15/16 , G06N3/04 , G06N3/0445 , G06N3/0454 , G06N3/08 , G10L15/02 , G10L15/063 , G10L15/065 , G10L15/183 , G10L15/28
Abstract: 本文中描述的技术使用模块化模型来处理语音。基于深度学习的声学模型包括不同类型的神经网络层的堆叠。基于深度学习的声学模型的子模块可以用于表示不同的非音素的声学因素,诸如口音来源(例如,母语、非母语)、语音通道(例如,移动、蓝牙、桌面等)、语音应用场景(例如,话音搜索、短消息口述等)和说话者变型(例如,单个说话者或集群说话者)等。本文中描述的技术在第一上下文中使用某些子模块并且在第二上下文中使用第二组子模块。
-
公开(公告)号:CN116508300A
公开(公告)日:2023-07-28
申请号:CN202180076676.7
申请日:2021-04-27
Applicant: 微软技术许可有限责任公司
IPC: H04L65/403 , H04L67/61 , H04L67/01
Abstract: 提供了用于在STT/TTS系统线上上会议中连接时管理和协调STT/TTS系统和这些系统之间的通信,以及用于缓解线上会议期间可能出现的连接性问题以提供具有实时字幕和/或呈现的音频的无缝和可靠的会议体验的系统。初始地,线上会议通信通过有损耗无连接类型的协议/信道传输。然后,响应于与线上会议中涉及的一个或多个系统的所检测的连接性问题(例如,其可以导致抖动或分组丢失),动态地生成和处理指令以用于使所连接的系统中的一个或多个利用更加可靠的连接/协议来传输和/或处理线上会议内容(诸如面向连接的协议)。在需要将语音转换为具有关联的语音属性信息的文本以及将文本转换为语音时,使用在系统处的编解码器。
-
公开(公告)号:CN115362497A
公开(公告)日:2022-11-18
申请号:CN202180026145.7
申请日:2021-02-15
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算系统,包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录,该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入,一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态,一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记,输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。
-
公开(公告)号:CN113646834A
公开(公告)日:2021-11-12
申请号:CN202080026949.2
申请日:2020-03-05
Applicant: 微软技术许可有限责任公司
Abstract: 一种增强自动语音识别置信度分类器的方法,其包括接收来自一个或多个解码单词的一组基线置信度特征,从基线置信度特征得到单词嵌入置信度特征,将基线置信度特征与单词嵌入置信度特征结合以创建特征向量,以及执行置信度分类器以生成置信度得分,其中置信度分类器用一组训练示例训练,所述组训练示例具有对应于特征向量的标记特征。
-
-
-
-
-
-
-
-
-