-
公开(公告)号:CN115362497A
公开(公告)日:2022-11-18
申请号:CN202180026145.7
申请日:2021-02-15
Applicant: 微软技术许可有限责任公司
Abstract: 一种计算系统,包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录,该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入,一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态,一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记,输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。
-
公开(公告)号:CN118355434A
公开(公告)日:2024-07-16
申请号:CN202280080208.1
申请日:2022-10-19
Applicant: 微软技术许可有限责任公司
IPC: G10L15/16
Abstract: 提供了用于访问因子化神经换能器的系统和方法,该因子化神经换能器包括用于预测空白令牌的第一层集和用于预测词汇令牌的第二层集。第一层集包括空白预测器、编码器和联合网络,并且第二层集包括词汇预测器,词汇预测器是与空白预测器分离的预测器。上下文编码器被添加到因子化神经换能器,其编码长格式转录历史以生成长格式上下文嵌入,使得该因子化神经换能器被进一步配置成至少部分地通过使用该长格式上下文嵌入来执行长格式自动语音识别以增强对词汇令牌的预测。
-
公开(公告)号:CN118742953A
公开(公告)日:2024-10-01
申请号:CN202280092206.4
申请日:2022-12-29
Applicant: 微软技术许可有限责任公司
Abstract: 本公开实施例涉及提供了针对获得、训练和使用基于神经转换器的端到端AST模型的系统和方法。该端到端AST模型至少包括(i)配置为接收和编码音频数据的声学编码器,(ii)与端到端AST模型中的声学编码器集成在并行模型架构中的预测网络,以及(iii)与声学编码器和预测网络串联集成的联合层。端到端的AST模型配置为生成第一语言的输入音频数据的第二语言的转录,使得声学编码器学习多个时间处理路径。
-
公开(公告)号:CN118451496A
公开(公告)日:2024-08-06
申请号:CN202280080966.3
申请日:2022-10-27
Applicant: 微软技术许可有限责任公司
IPC: G10L15/26
Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。
-
公开(公告)号:CN110998716B
公开(公告)日:2024-01-23
申请号:CN201880051796.X
申请日:2018-06-21
Applicant: 微软技术许可有限责任公司
IPC: G10L15/06 , G10L15/065 , G10L15/16 , G10L25/30 , G06N3/0442 , G06N3/084 , G06N3/096
Abstract: 经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练,以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签,而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较,并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。
-
公开(公告)号:CN110998716A
公开(公告)日:2020-04-10
申请号:CN201880051796.X
申请日:2018-06-21
Applicant: 微软技术许可有限责任公司
Abstract: 经由对不同话音域的模型的学生/教师训练而提供了新域中的话音识别的改进。基于在现有域中训练的教师模型来为新域创建学生模型。该学生模型并行于该教师模型的操作、分别利用新域和现有域中的输入而被训练,以开发适应于辨识新域中的话音的神经网络。该新域中的数据可以排除转录标签,而是与在现有域中被分析的数据(由该教师模型所分析)并行化。来自该教师模型的输出与该学生模型的输出相比较,并且差异被用来调节该学生模型的参数以更好地辨识第二域中的话音。
-
公开(公告)号:CN106104673A
公开(公告)日:2016-11-09
申请号:CN201580012496.7
申请日:2015-02-27
Applicant: 微软技术许可有限责任公司
Abstract: 本发明提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。
-
公开(公告)号:CN117795593A
公开(公告)日:2024-03-29
申请号:CN202280053345.6
申请日:2022-03-24
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于通过以下中的至少一者来生成伪标记训练数据集的系统和方法:(1)基于将自动语音识别模型应用于未标记语音数据集,从自动语音识别模型提取中间输出集合,将中间输出集合聚类成不同聚类,以及生成包括与不同聚类相关联并且与未标记语音数据相对应的聚类分配的第一伪标记集,或者(2)通过将自动语音识别模型应用于未标记语音数据集来为未标记语音数据生成经解码单词序列集,以及通过将自动语音识别模型应用于(i)经解码单词序列集和(ii)未标记语音数据集这两者,来生成与未标记语音数据相关联的第二伪标记集。
-
公开(公告)号:CN116250039A
公开(公告)日:2023-06-09
申请号:CN202180055194.3
申请日:2021-06-29
Applicant: 微软技术许可有限责任公司
IPC: G10L15/32
Abstract: 提供了用于构建可配置的多语言模型的实施例。一种计算系统,其获得多个因语言而异的自动语音识别模块和通用自动语音识别模块,该通用自动语音识别模块在包括与多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上被训练。该计算系统然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型,该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。
-
公开(公告)号:CN116057534A
公开(公告)日:2023-05-02
申请号:CN202180052809.7
申请日:2021-06-15
Applicant: 微软技术许可有限责任公司
IPC: G06F40/295
Abstract: 用于语音识别的新颖解决方案提供了用于自动语音识别(ASR)的上下文拼写校正(CSC)。所公开的示例包括:接收音频流;对该音频流执行ASR处理以产生ASR假设;接收上下文列表;以及至少基于该ASR假设和该上下文列表来执行拼写校正以产生输出文本序列。在ASR模型之上使用上下文拼写校正(CSC)模型,这排除了改变原始ASR模型的需要。这准许基于上下文数据的运行时用户定制,即使对于大型上下文列表也是如此。一些示例包括过滤针对音频流的ASR假设,并且至少基于ASR假设过滤来确定是否要触发针对该ASR假设的拼写校正。一些示例包括使用具有上下文短语的经预处理转录来生成文本到语音(TTS)音频,以训练CSC模型。
-
-
-
-
-
-
-
-
-