-
公开(公告)号:CN117321678A
公开(公告)日:2023-12-29
申请号:CN202280035368.4
申请日:2022-05-05
Applicant: 谷歌有限责任公司
Inventor: 伊格纳西奥·洛佩斯·莫雷诺 , 王泉 , 杰森·佩莱卡诺斯 , 黄易玲 , 梅尔特·萨格拉姆
IPC: G10L17/18
Abstract: 一种说话者验证方法(400)包括接收对应于话语(119)的音频数据(120)、处理该音频数据以生成表示话语的话音特性的评估注意力d向量(200E)、评估ad向量包括ne个风格类(202),每个风格类包括与对应路由向量(210)连结的相应值向量(220)。该方法还包括使用自注意力机制(160)生成至少一个多条件注意力分数(165),其指示评估ad向量和与相应用户(10)相关联的参考ad向量(200R)相匹配的可能性。该方法还包括基于多条件注意力分数将话语的说话者标识为与相应参考ad向量相关联的相应用户。
-
公开(公告)号:CN114158283A
公开(公告)日:2022-03-08
申请号:CN202080012761.2
申请日:2020-07-08
Applicant: 谷歌有限责任公司
Inventor: 阿戈什顿·魏斯 , 伊格纳西奥·洛佩斯·莫雷诺 , 亚历山德鲁·多夫莱塞尔
Abstract: 公开了使得能够确定和/或利用口述话语的误认的技术,其中,误认是使用自动语音识别(ASR)模型生成的。各种实现方式包括基于口述话语和在该口述话语之前说出的先前话语来确定误认。附加地或替代地,实现方式包括基于口述话语和该口述话语之前说出的先前话语(例如,基于捕获先前话语和口述话语的文本表示的音频数据)为用户个性化ASR引擎。
-
公开(公告)号:CN118538199A
公开(公告)日:2024-08-23
申请号:CN202410733939.2
申请日:2019-01-08
Applicant: 谷歌有限责任公司
Inventor: 伊格纳西奥·洛佩斯·莫雷诺 , 卢卡斯·洛帕托夫斯基 , 阿戈什顿·魏斯
Abstract: 本公开涉及确定经由自动助理界面接收的口头话语的语音识别的语言。在各种实施方式中,指示话音输入的音频数据包括来自用户的自然语言请求,该音频数据可以作为跨多个语音到文本(“STT”)机器学习模型的输入被应用,以生成多个候选语音识别输出。每个STT机器学习模型都可以以特定语言被训练。对于所述多个STT模型中的每个相应的STT机器学习模型,可以分析所述多个候选语音识别输出以确定针对所述相应的STT机器学习模型的熵得分。基于所述熵得分,可以选择与所述多个STT机器学习模型中的至少一个STT机器学习模型相关联的目标语言。自动助理可以使用所述目标语言来响应所述请求。
-
公开(公告)号:CN112673421B
公开(公告)日:2024-07-16
申请号:CN201980026087.0
申请日:2019-11-27
Applicant: 谷歌有限责任公司
Inventor: 万里 , 于洋 , 普拉尚特·斯里达尔 , 伊格纳西奥·洛佩斯·莫雷诺 , 王泉
IPC: G10L15/00 , G10L15/16 , G10L15/183 , G10L15/14 , G10L25/24 , G06N20/10 , G06N3/0442 , G06N3/084
Abstract: 用于训练和/或使用语音选择模型以在确定音频数据中捕获的口头话语的特定语言时使用。可以使用经训练的语言选择模型处理音频数据的特征以生成N种不同语言中的每一种语言的预测概率,并且基于所生成的概率选择特定语言。可以响应于选择了口头话语的特定语言而采用针对该特定语言的话音辨识结果。许多实施方式涉及利用元组损失代替传统的交叉熵损失来训练语言选择模型。利用元组损失训练语言选择模型可以导致更加有效的训练和/或可以导致更加准确和/或鲁棒的模型——由此缓解了针对口头话语的错误语言选择。
-
公开(公告)号:CN117392977A
公开(公告)日:2024-01-12
申请号:CN202311315470.2
申请日:2018-04-16
Applicant: 谷歌有限责任公司
Inventor: 赵璞升 , 迭戈·米伦多·卡萨多 , 伊格纳西奥·洛佩斯·莫雷诺
Abstract: 公开了自动确定通过自动化助理接口接收的口头话语的语音识别的语言。确定用于通过用于与自动化助理交互的自动化助理接口接收的口头话语的语音识别的语言。实施方式可以实现与自动化助理的多语言交互,而不需要用户明确指明每个交互所使用的语言。实施方式确定对应于捕获口头话语的音频数据的用户简档,并且在确定用于口头话语的语音识别的语言时利用被指派给用户简档的语言和可选地对应概率。一些实施方式仅选择被指派给用户简档的语言的子集以用于用户的给定口头话语的语音识别。一些实施方式以被指派给用户简档的多个语言中的每一个执行语音识别,并且利用标准来适当地选择语音识别中的仅一个以用于生成和提供响应于口头话语的内容。
-
公开(公告)号:CN116959420A
公开(公告)日:2023-10-27
申请号:CN202311023420.7
申请日:2018-04-16
Applicant: 谷歌有限责任公司
Inventor: 赵璞升 , 迭戈·米伦多·卡萨多 , 伊格纳西奥·洛佩斯·莫雷诺
IPC: G10L15/02 , G10L15/14 , G10L15/18 , G10L15/183 , G10L15/22 , G10L15/26 , G10L15/30 , G10L15/32 , G06F3/16
Abstract: 本公开涉及自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言。实施方式涉及确定用于经由用于与自动化助理交互的自动化助理接口接收的口头话语的语音辨识的语言。实施方式可使得能够与所述自动化助理进行多语言交互,而无需用户显式地指定要用于每个交互的语言。对针对特定语言的语音辨识模型的选择可基于在用户与自动化助理之间的对话会话期间展示的一个或多个交互特性。这样的交互特性可包括预期用户输入类型、预期用户输入持续时间、用于针对用户响应进行监视的持续时间和/或提供的用户响应的实际持续时间。
-
公开(公告)号:CN112689871A
公开(公告)日:2021-04-20
申请号:CN201980033235.1
申请日:2019-05-17
Applicant: 谷歌有限责任公司
IPC: G10L13/033 , G10L13/04 , G10L25/30
Abstract: 用于语音合成的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述方法、系统和装置包括以下动作:获得目标讲话者的语音的音频表示;获得将要以目标讲话者的话音合成语音的输入文本;通过将所述音频表示提供给被训练以将讲话者彼此区分开的讲话者编码器引擎来生成讲话者矢量;通过将所述输入文本和讲话者矢量提供给已使用参考讲话者的话音进行训练以生成音频表示的声谱图生成引擎来生成以所述目标讲话者的话音讲出的所述输入文本的音频表示;以及提供以所述目标讲话者的话音讲出的所述输入文本的所述音频表示以进行输出。
-
公开(公告)号:CN107924682A
公开(公告)日:2018-04-17
申请号:CN201680028481.4
申请日:2016-07-27
Applicant: 谷歌有限责任公司
Inventor: 乔治·海戈尔德 , 萨米·本希奥 , 伊格纳西奥·洛佩斯·莫雷诺
Abstract: 本文大体上描述与说话者验证有关的系统、方法、装置、和其它技术,包括:(i)训练用于说话者验证模型的神经网络,(ii)在客户端装置处登记用户,以及(iii)基于所述用户的声音的特点来验证用户的身份。一些实施方式包括计算机实现的方法。所述方法可以包括:在计算装置处接收表征所述计算装置的用户的话语的数据。可以使用所述计算装置上的神经网络在所述计算装置处针对所述话语生成说话者表示。可以基于多个训练样本来训练神经网络,所述多个训练样本中的每个:(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)被标记为匹配说话者样本或者非匹配说话者样本。
-
公开(公告)号:CN118786480A
公开(公告)日:2024-10-15
申请号:CN202380025902.8
申请日:2023-02-13
Applicant: 谷歌有限责任公司
Inventor: 朴玄振 , 亚历克斯·胜格隆·帕克 , 伊格纳西奥·洛佩斯·莫雷诺
IPC: G10L15/06
Abstract: 一种用于训练记忆神经网络(300)的方法(800)包括接收包括输入帧的序列的训练输入音频序列(400),该输入帧的序列定义在用户装置(102)上发起唤醒过程的热词。该方法还包括获得训练输入音频序列的第一标记(420,420a)和第二标记(420,420b)。该方法包括使用记忆神经网络和训练输入音频序列生成指示训练输入音频序列包括热词的可能性的输出(350)。该方法还包括基于第一标记和输出确定第一损失(710,710a)。该方法包括基于第二标记和输出确定第二损失(710,710b)。该方法还包括基于与训练输入音频序列相关联的第一损失和第二损失来优化记忆神经网络。
-
公开(公告)号:CN112805780B
公开(公告)日:2024-08-09
申请号:CN201980033104.3
申请日:2019-04-15
Applicant: 谷歌有限责任公司
Inventor: 王泉 , 亚什·舍斯 , 伊格纳西奥·洛佩斯·莫雷诺 , 利·万
Abstract: 描述了用于训练和/或利用端到端讲话者分割模型的技术。在各种实施方式中,该模型是递归神经网络(RNN)模型,诸如包括至少一个诸如长短期记忆(LSTM)层的记忆层的RNN模型。音频数据的音频特征可以作为输入应用于根据本文公开的实施方式训练的端到端讲话者分割模型,并且该模型被利用以处理音频特征以通过模型生成讲话者分割结果作为直接输出。此外,端到端讲话者分割模型可以是序列到序列模型,其中序列可以具有可变长度。因此,该模型可以被利用以为各种长度的音频分段中的任何一个生成讲话者分割结果。
-
-
-
-
-
-
-
-
-