具有延迟阈值的序列到序列语音识别

    公开(公告)号:CN115362497A

    公开(公告)日:2022-11-18

    申请号:CN202180026145.7

    申请日:2021-02-15

    Abstract: 一种计算系统,包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录,该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入,一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态,一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记,输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。

    流式长格式语音识别
    2.
    发明公开

    公开(公告)号:CN118355434A

    公开(公告)日:2024-07-16

    申请号:CN202280080208.1

    申请日:2022-10-19

    Abstract: 提供了用于访问因子化神经换能器的系统和方法,该因子化神经换能器包括用于预测空白令牌的第一层集和用于预测词汇令牌的第二层集。第一层集包括空白预测器、编码器和联合网络,并且第二层集包括词汇预测器,词汇预测器是与空白预测器分离的预测器。上下文编码器被添加到因子化神经换能器,其编码长格式转录历史以生成长格式上下文嵌入,使得该因子化神经换能器被进一步配置成至少部分地通过使用该长格式上下文嵌入来执行长格式自动语音识别以增强对词汇令牌的预测。

    具有神经转换器的端到端流式语音翻译

    公开(公告)号:CN118742953A

    公开(公告)日:2024-10-01

    申请号:CN202280092206.4

    申请日:2022-12-29

    Abstract: 本公开实施例涉及提供了针对获得、训练和使用基于神经转换器的端到端AST模型的系统和方法。该端到端AST模型至少包括(i)配置为接收和编码音频数据的声学编码器,(ii)与端到端AST模型中的声学编码器集成在并行模型架构中的预测网络,以及(iii)与声学编码器和预测网络串联集成的联合层。端到端的AST模型配置为生成第一语言的输入音频数据的第二语言的转录,使得声学编码器学习多个时间处理路径。

    在多说话者音频流上训练和使用转录生成模型

    公开(公告)号:CN118451496A

    公开(公告)日:2024-08-06

    申请号:CN202280080966.3

    申请日:2022-10-27

    Abstract: 转录生成模型从多说话者音频流生成转录。获得包括多个说话者的重叠语音的音频数据,并且使用音频数据编码器从所获得的音频数据的音频数据帧生成帧嵌入集合。使用转录生成模型从帧嵌入集合生成词集合和通道改变(CC)符号。CC符号被包括在由不同人同时说出的相邻词对之间。词集合和CC符号被变换为多个转录行,其中基于CC符号将词集合中的词归类到转录行中,并且基于多个转录行来生成多说话者转录。由模型对CC符号的包括实现高效、准确的多说话者转录。

    深度神经网络的低资源占用适配和个性化

    公开(公告)号:CN106104673A

    公开(公告)日:2016-11-09

    申请号:CN201580012496.7

    申请日:2015-02-27

    Abstract: 本发明提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。

    用于语音识别中的自监督学习的高级聚类

    公开(公告)号:CN117795593A

    公开(公告)日:2024-03-29

    申请号:CN202280053345.6

    申请日:2022-03-24

    Abstract: 提供了用于通过以下中的至少一者来生成伪标记训练数据集的系统和方法:(1)基于将自动语音识别模型应用于未标记语音数据集,从自动语音识别模型提取中间输出集合,将中间输出集合聚类成不同聚类,以及生成包括与不同聚类相关联并且与未标记语音数据相对应的聚类分配的第一伪标记集,或者(2)通过将自动语音识别模型应用于未标记语音数据集来为未标记语音数据生成经解码单词序列集,以及通过将自动语音识别模型应用于(i)经解码单词序列集和(ii)未标记语音数据集这两者,来生成与未标记语音数据相关联的第二伪标记集。

    用于高度可配置的多语言语音识别的规范训练

    公开(公告)号:CN116250039A

    公开(公告)日:2023-06-09

    申请号:CN202180055194.3

    申请日:2021-06-29

    Abstract: 提供了用于构建可配置的多语言模型的实施例。一种计算系统,其获得多个因语言而异的自动语音识别模块和通用自动语音识别模块,该通用自动语音识别模块在包括与多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上被训练。该计算系统然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型,该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。

    用于自动语音识别(ASR)的上下文拼写校正(CSC)

    公开(公告)号:CN116057534A

    公开(公告)日:2023-05-02

    申请号:CN202180052809.7

    申请日:2021-06-15

    Abstract: 用于语音识别的新颖解决方案提供了用于自动语音识别(ASR)的上下文拼写校正(CSC)。所公开的示例包括:接收音频流;对该音频流执行ASR处理以产生ASR假设;接收上下文列表;以及至少基于该ASR假设和该上下文列表来执行拼写校正以产生输出文本序列。在ASR模型之上使用上下文拼写校正(CSC)模型,这排除了改变原始ASR模型的需要。这准许基于上下文数据的运行时用户定制,即使对于大型上下文列表也是如此。一些示例包括过滤针对音频流的ASR假设,并且至少基于ASR假设过滤来确定是否要触发针对该ASR假设的拼写校正。一些示例包括使用具有上下文短语的经预处理转录来生成文本到语音(TTS)音频,以训练CSC模型。

Patent Agency Ranking