深度神经网络的低资源占用适配和个性化

    公开(公告)号:CN106104673A

    公开(公告)日:2016-11-09

    申请号:CN201580012496.7

    申请日:2015-02-27

    Abstract: 本发明提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。

    模块化深度学习模型
    6.
    发明授权

    公开(公告)号:CN108701453B

    公开(公告)日:2023-04-04

    申请号:CN201780014729.6

    申请日:2017-02-27

    Abstract: 本文中描述的技术使用模块化模型来处理语音。基于深度学习的声学模型包括不同类型的神经网络层的堆叠。基于深度学习的声学模型的子模块可以用于表示不同的非音素的声学因素,诸如口音来源(例如,母语、非母语)、语音通道(例如,移动、蓝牙、桌面等)、语音应用场景(例如,话音搜索、短消息口述等)和说话者变型(例如,单个说话者或集群说话者)等。本文中描述的技术在第一上下文中使用某些子模块并且在第二上下文中使用第二组子模块。

    在挑战性的网络条件中维持连接的字幕辅助呼叫

    公开(公告)号:CN116508300A

    公开(公告)日:2023-07-28

    申请号:CN202180076676.7

    申请日:2021-04-27

    Abstract: 提供了用于在STT/TTS系统线上上会议中连接时管理和协调STT/TTS系统和这些系统之间的通信,以及用于缓解线上会议期间可能出现的连接性问题以提供具有实时字幕和/或呈现的音频的无缝和可靠的会议体验的系统。初始地,线上会议通信通过有损耗无连接类型的协议/信道传输。然后,响应于与线上会议中涉及的一个或多个系统的所检测的连接性问题(例如,其可以导致抖动或分组丢失),动态地生成和处理指令以用于使所连接的系统中的一个或多个利用更加可靠的连接/协议来传输和/或处理线上会议内容(诸如面向连接的协议)。在需要将语音转换为具有关联的语音属性信息的文本以及将文本转换为语音时,使用在系统处的编解码器。

    具有延迟阈值的序列到序列语音识别

    公开(公告)号:CN115362497A

    公开(公告)日:2022-11-18

    申请号:CN202180026145.7

    申请日:2021-02-15

    Abstract: 一种计算系统,包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录,该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入,一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态,一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记,输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。

    自动语音识别置信度分类器
    10.
    发明公开

    公开(公告)号:CN113646834A

    公开(公告)日:2021-11-12

    申请号:CN202080026949.2

    申请日:2020-03-05

    Abstract: 一种增强自动语音识别置信度分类器的方法,其包括接收来自一个或多个解码单词的一组基线置信度特征,从基线置信度特征得到单词嵌入置信度特征,将基线置信度特征与单词嵌入置信度特征结合以创建特征向量,以及执行置信度分类器以生成置信度得分,其中置信度分类器用一组训练示例训练,所述组训练示例具有对应于特征向量的标记特征。

Patent Agency Ranking