-
公开(公告)号:CN107112006B
公开(公告)日:2020-10-23
申请号:CN201580053898.1
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 获得表示语音的特征向量对。一些对表示来自相同说话者的两个语音样本,并且其他对表示来自不同说话者的两个语音样本。神经网络利用彼此关联的两个向量的输入上的权重矩阵,将样本对中的每个特征向量馈送到单独的瓶颈层中。该神经网络使用特征向量和目标函数被训练,该目标函数诱导网络对语音样本是否来自相同说话者进行分类。来自关联的权重矩阵的权重被提取以供在生成用于语音处理系统的导出特征中使用,该语音处理系统可以受益于特征,该特征因此被变换为更好地反映说话者身份。
-
公开(公告)号:CN106463119B
公开(公告)日:2020-07-10
申请号:CN201580029986.8
申请日:2015-06-03
Applicant: 微软技术许可有限责任公司
IPC: G10L15/24
Abstract: 本文中描述的技术涉及修改用于在显示器上呈现的视觉内容以支持改进自动语音识别(ASR)系统的性能。视觉内容被修改以将元素移动为进一步远离彼此,其中被移动的元素引起来自ASR系统的角度的歧义。视觉内容被修改以考虑凝视跟踪的准确性。当用户查看所修改的视觉内容中的元素时,ASR系统根据正被用户查看的元素来被定制。
-
公开(公告)号:CN107077201B
公开(公告)日:2020-06-23
申请号:CN201580050763.X
申请日:2015-09-25
Applicant: 微软技术许可有限责任公司
Inventor: A·普罗科菲瓦 , F·A·塞利基尔马兹 , D·Z·哈卡尼-图尔 , L·赫科 , M·斯拉尼
IPC: G06F3/01
Abstract: 描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。
-
公开(公告)号:CN107112006A
公开(公告)日:2017-08-29
申请号:CN201580053898.1
申请日:2015-10-01
Applicant: 微软技术许可有限责任公司
Abstract: 获得表示语音的特征向量对。一些对表示来自相同说话者的两个语音样本,并且其他对表示来自不同说话者的两个语音样本。神经网络利用彼此关联的两个向量的输入上的权重矩阵,将样本对中的每个特征向量馈送到单独的瓶颈层中。该神经网络使用特征向量和目标函数被训练,该目标函数诱导网络对语音样本是否来自相同说话者进行分类。来自关联的权重矩阵的权重被提取以供在生成用于语音处理系统的导出特征中使用,该语音处理系统可以受益于特征,该特征因此被变换为更好地反映说话者身份。
-
公开(公告)号:CN106463119A
公开(公告)日:2017-02-22
申请号:CN201580029986.8
申请日:2015-06-03
Applicant: 微软技术许可有限责任公司
IPC: G10L15/24
Abstract: 本文中描述的技术涉及修改用于在显示器上呈现的视觉内容以支持改进自动语音识别(ASR)系统的性能。视觉内容被修改以将元素移动为进一步远离彼此,其中被移动的元素引起来自ASR系统的角度的歧义。视觉内容被修改以考虑凝视跟踪的准确性。当用户查看所修改的视觉内容中的元素时,ASR系统根据正被用户查看的元素来被定制。
-
公开(公告)号:CN107077201A
公开(公告)日:2017-08-18
申请号:CN201580050763.X
申请日:2015-09-25
Applicant: 微软技术许可有限责任公司
Inventor: A·普罗科菲瓦 , F·A·塞利基尔马兹 , D·Z·哈卡尼-图尔 , L·赫科 , M·斯拉尼
IPC: G06F3/01
Abstract: 描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。
-
-
-
-
-