用于讲话者无关的多讲话者语音分离的置换不变训练

    公开(公告)号:CN109313910A

    公开(公告)日:2019-02-05

    申请号:CN201780030696.4

    申请日:2017-05-06

    Inventor: 俞栋

    Abstract: 本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中,深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中,该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中,该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身,解决了标签置换问题,标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。

    深度神经网络的低资源占用适配和个性化

    公开(公告)号:CN106104673A

    公开(公告)日:2016-11-09

    申请号:CN201580012496.7

    申请日:2015-02-27

    Abstract: 本发明提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。

    深层神经网络的辨别预训练

    公开(公告)号:CN103049792B

    公开(公告)日:2016-08-17

    申请号:CN201210488501.X

    申请日:2012-11-26

    CPC classification number: G06N3/08 G06N3/04

    Abstract: 本发明公开了深层神经网络的辨别预训练。提出了预训练深层神经网络(DNN)的隐层的辨别预训练技术实施例。大体上,首先利用误差反向传播(BP)使用标签来辨别地训练单隐层神经网络。然后,在丢弃之前的单隐层神经网络的输出层之后,连同新输出层在之前训练的隐层的顶上添加另一随机初始化的隐层,所述新输出层表示分类或识别的目标。然后利用同一策略辨别地训练作为结果产生的多隐层DNN等等,直到达到期望数量的隐层。这产生了预训练的DNN。所述辨别预训练技术实施例具有如下的优点:使得DNN层权重接近良好的局部最优,而仍使其留在具有高梯度的范围内,从而能够有效地对其进行微调。

    用于讲话者无关的多讲话者语音分离的置换不变训练

    公开(公告)号:CN109313910B

    公开(公告)日:2023-08-29

    申请号:CN201780030696.4

    申请日:2017-05-06

    Inventor: 俞栋

    Abstract: 本文描述的技术改进了使计算设备能够在与讲话者无关的多讲话者场景中进行自动语音识别(“ASR”)的方法。在一些示例中,深度学习模型的置换不变训练可以用于与讲话者无关的多个讲话者场景。在一些示例中,该技术可以确定模型对源信号的估计与源信号之间的置换考虑的分配。在一些示例中,该技术可以包括训练生成估计的模型以最小化置换考虑的分配的偏差。这些技术可以实现为神经网络的结构本身,解决了标签置换问题,标签置换问题阻碍了基于深度学习的语音分离技术的进步。这里讨论的技术还可以包括源追踪以在混合信号的帧中追踪源自相同源的流。

    深度神经网络的低资源占用适配和个性化

    公开(公告)号:CN106104673B

    公开(公告)日:2019-10-18

    申请号:CN201580012496.7

    申请日:2015-02-27

    Abstract: 本发明提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。

    混合语音识别
    7.
    发明公开

    公开(公告)号:CN106104674A

    公开(公告)日:2016-11-09

    申请号:CN201580016161.2

    申请日:2015-03-19

    Abstract: 所要求的主题包括一种用于识别来自源的混合语音的系统和方法。该方法包括训练第一神经网络以识别来自混合语音样本的讲话者所讲出的具有较高水平的语音特征的语音信号。该方法还包括训练第二神经网络以识别来自混合语音样本的讲话者所讲出的具有较低水平的语音特征的语音信号。此外,该方法包括通过在考虑特定帧是语音特征的切换点的概率的情况下对观察到两个语音信号的联合可能性进行优化而利用该第一神经网络和第二神经网络对该混合语音样本进行解码。

    自动化的预测性建模与框架

    公开(公告)号:CN108604313B

    公开(公告)日:2022-09-13

    申请号:CN201780010748.1

    申请日:2017-02-06

    Abstract: 提供了预测性框架的系统和方法。该预测性框架包括可适应的、可执行的神经元的多个神经层。神经元接受一个或多个输入信号,并产生可以由上层神经层使用的输出信号。输入信号由编码神经层接收,在编码神经层中,输入信号和编码神经元之间存在1:1的对应关系。输入信号在编码层处被接收,并由各种神经层连续处理。目标函数利用最顶层神经层的输出信号,根据目标来生成针对数据集的预测性结果。在一个实施例中,目标是:确定用户关于搜索结果集中的特定内容项的交互的可能性,或者确定用户关于搜索结果集中的任何内容项的交互的可能性。

    混合语音识别
    10.
    发明授权

    公开(公告)号:CN106104674B

    公开(公告)日:2019-10-01

    申请号:CN201580016161.2

    申请日:2015-03-19

    Abstract: 所要求的主题包括一种用于识别来自源的混合语音的系统和方法。该方法包括训练第一神经网络以识别来自混合语音样本的讲话者所讲出的具有较高水平的语音特征的语音信号。该方法还包括训练第二神经网络以识别来自混合语音样本的讲话者所讲出的具有较低水平的语音特征的语音信号。此外,该方法包括通过在考虑特定帧是语音特征的切换点的概率的情况下对观察到两个语音信号的联合可能性进行优化而利用该第一神经网络和第二神经网络对该混合语音样本进行解码。

Patent Agency Ranking