用于说话者标识的注意力评分功能

    公开(公告)号:CN117321678A

    公开(公告)日:2023-12-29

    申请号:CN202280035368.4

    申请日:2022-05-05

    Abstract: 一种说话者验证方法(400)包括接收对应于话语(119)的音频数据(120)、处理该音频数据以生成表示话语的话音特性的评估注意力d向量(200E)、评估ad向量包括ne个风格类(202),每个风格类包括与对应路由向量(210)连结的相应值向量(220)。该方法还包括使用自注意力机制(160)生成至少一个多条件注意力分数(165),其指示评估ad向量和与相应用户(10)相关联的参考ad向量(200R)相匹配的可能性。该方法还包括基于多条件注意力分数将话语的说话者标识为与相应参考ad向量相关联的相应用户。

    自动确定通过自动化助理接口接收的口头话语的语音识别的语言

    公开(公告)号:CN117392977A

    公开(公告)日:2024-01-12

    申请号:CN202311315470.2

    申请日:2018-04-16

    Abstract: 公开了自动确定通过自动化助理接口接收的口头话语的语音识别的语言。确定用于通过用于与自动化助理交互的自动化助理接口接收的口头话语的语音识别的语言。实施方式可以实现与自动化助理的多语言交互,而不需要用户明确指明每个交互所使用的语言。实施方式确定对应于捕获口头话语的音频数据的用户简档,并且在确定用于口头话语的语音识别的语言时利用被指派给用户简档的语言和可选地对应概率。一些实施方式仅选择被指派给用户简档的语言的子集以用于用户的给定口头话语的语音识别。一些实施方式以被指派给用户简档的多个语言中的每一个执行语音识别,并且利用标准来适当地选择语音识别中的仅一个以用于生成和提供响应于口头话语的内容。

    用于说话者验证的神经网络
    8.
    发明公开

    公开(公告)号:CN107924682A

    公开(公告)日:2018-04-17

    申请号:CN201680028481.4

    申请日:2016-07-27

    CPC classification number: G10L17/18 G10L17/02 G10L17/04

    Abstract: 本文大体上描述与说话者验证有关的系统、方法、装置、和其它技术,包括:(i)训练用于说话者验证模型的神经网络,(ii)在客户端装置处登记用户,以及(iii)基于所述用户的声音的特点来验证用户的身份。一些实施方式包括计算机实现的方法。所述方法可以包括:在计算装置处接收表征所述计算装置的用户的话语的数据。可以使用所述计算装置上的神经网络在所述计算装置处针对所述话语生成说话者表示。可以基于多个训练样本来训练神经网络,所述多个训练样本中的每个:(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)被标记为匹配说话者样本或者非匹配说话者样本。

    混合异构损失类型以提高关键字检出的准确性

    公开(公告)号:CN118786480A

    公开(公告)日:2024-10-15

    申请号:CN202380025902.8

    申请日:2023-02-13

    Abstract: 一种用于训练记忆神经网络(300)的方法(800)包括接收包括输入帧的序列的训练输入音频序列(400),该输入帧的序列定义在用户装置(102)上发起唤醒过程的热词。该方法还包括获得训练输入音频序列的第一标记(420,420a)和第二标记(420,420b)。该方法包括使用记忆神经网络和训练输入音频序列生成指示训练输入音频序列包括热词的可能性的输出(350)。该方法还包括基于第一标记和输出确定第一损失(710,710a)。该方法包括基于第二标记和输出确定第二损失(710,710b)。该方法还包括基于与训练输入音频序列相关联的第一损失和第二损失来优化记忆神经网络。

    使用端到端模型的讲话者分割

    公开(公告)号:CN112805780B

    公开(公告)日:2024-08-09

    申请号:CN201980033104.3

    申请日:2019-04-15

    Abstract: 描述了用于训练和/或利用端到端讲话者分割模型的技术。在各种实施方式中,该模型是递归神经网络(RNN)模型,诸如包括至少一个诸如长短期记忆(LSTM)层的记忆层的RNN模型。音频数据的音频特征可以作为输入应用于根据本文公开的实施方式训练的端到端讲话者分割模型,并且该模型被利用以处理音频特征以通过模型生成讲话者分割结果作为直接输出。此外,端到端讲话者分割模型可以是序列到序列模型,其中序列可以具有可变长度。因此,该模型可以被利用以为各种长度的音频分段中的任何一个生成讲话者分割结果。

Patent Agency Ranking