-
公开(公告)号:CN107077201A
公开(公告)日:2017-08-18
申请号:CN201580050763.X
申请日:2015-09-25
Applicant: 微软技术许可有限责任公司
Inventor: A·普罗科菲瓦 , F·A·塞利基尔马兹 , D·Z·哈卡尼-图尔 , L·赫科 , M·斯拉尼
IPC: G06F3/01
Abstract: 描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。
-
公开(公告)号:CN106575503B
公开(公告)日:2020-12-25
申请号:CN201580032500.6
申请日:2015-06-17
Applicant: 微软技术许可有限责任公司
Inventor: M·阿克巴恰克 , D·Z·哈卡尼-图尔 , G·图尔 , L·P·赫克
IPC: G10L15/06 , G10L15/22 , G10L15/183
Abstract: 提供了用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的系统和方法。知识源(如知识图)用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。根据用户交互的序列,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不一定出现在使用历史中的参数。以这种方式,会话上下文模型可以用于在给定此前的轮次或一些轮次的情况下确定来自用户的可能的接下来的交互或“轮次”。然后对与可能的接下来的轮次相对应的语言模型进行内插,并提供其以改进从用户接收的接下来的轮次的识别准确度。
-
公开(公告)号:CN107077201B
公开(公告)日:2020-06-23
申请号:CN201580050763.X
申请日:2015-09-25
Applicant: 微软技术许可有限责任公司
Inventor: A·普罗科菲瓦 , F·A·塞利基尔马兹 , D·Z·哈卡尼-图尔 , L·赫科 , M·斯拉尼
IPC: G06F3/01
Abstract: 描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。
-
公开(公告)号:CN108028043B
公开(公告)日:2021-11-19
申请号:CN201680056137.6
申请日:2016-09-17
Applicant: 微软技术许可有限责任公司
Inventor: D·Z·哈卡尼-图尔 , 何晓冬 , 陈缊侬
Abstract: 本文描述了用于检测语音中的可行动项的计算机实现的技术。在一种操作方式中,该技术需要:接收话语信息,该话语信息表达由对话的一个参与者向对话的至少一个其他参与者说出的至少一个话语;将话语信息转换为识别的语音信息;使用机器训练的模型来识别与识别的语音信息相关联的至少一个可行动项;以及执行与一个或多个可行动项相关联的至少一个计算机实现的动作。机器训练的模型可以对应于深度结构的卷积神经网络。在一些实现方式中,该技术使用源环境语料库来产生机器训练的模型,该源环境语料库并非最佳地适用该模型旨在被应用于其中的目标环境。该技术进一步提供了用于适配源‑环境模型以使得其更适合目标环境的各种适配技术。
-
公开(公告)号:CN108028043A
公开(公告)日:2018-05-11
申请号:CN201680056137.6
申请日:2016-09-17
Applicant: 微软技术许可有限责任公司
Inventor: D·Z·哈卡尼-图尔 , 何晓冬 , 陈缊侬
CPC classification number: G10L15/16 , G06F17/2785 , G06F17/279 , G06N99/005 , G06Q10/10 , G10L15/20 , G10L15/22 , G10L15/26
Abstract: 本文描述了用于检测语音中的可行动项的计算机实现的技术。在一种操作方式中,该技术需要:接收话语信息,该话语信息表达由对话的一个参与者向对话的至少一个其他参与者说出的至少一个话语;将话语信息转换为识别的语音信息;使用机器训练的模型来识别与识别的语音信息相关联的至少一个可行动项;以及执行与一个或多个可行动项相关联的至少一个计算机实现的动作。机器训练的模型可以对应于深度结构的卷积神经网络。在一些实现方式中,该技术使用源环境语料库来产生机器训练的模型,该源环境语料库并非最佳地适用该模型旨在被应用于其中的目标环境。该技术进一步提供了用于适配源‑环境模型以使得其更适合目标环境的各种适配技术。
-
公开(公告)号:CN106575503A
公开(公告)日:2017-04-19
申请号:CN201580032500.6
申请日:2015-06-17
Applicant: 微软技术许可有限责任公司
Inventor: M·阿克巴恰克 , D·Z·哈卡尼-图尔 , G·图尔 , L·P·赫克
IPC: G10L15/06 , G10L15/22 , G10L15/183
Abstract: 提供了用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的系统和方法。知识源(如知识图)用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。根据用户交互的序列,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不一定出现在使用历史中的参数。以这种方式,会话上下文模型可以用于在给定此前的轮次或一些轮次的情况下确定来自用户的可能的接下来的交互或“轮次”。然后对与可能的接下来的轮次相对应的语言模型进行内插,并提供其以改进从用户接收的接下来的轮次的识别准确度。
-
公开(公告)号:CN106462608A
公开(公告)日:2017-02-22
申请号:CN201580025456.6
申请日:2015-05-15
Applicant: 微软技术许可有限责任公司
Inventor: M·阿克巴恰克 , D·Z·哈卡尼-图尔 , G·图尔 , L·P·赫克 , B·杜莫林
Abstract: 提供了通过针对特定用户或用户群体特点将语言模型所使用的知识源个性化来改进用于话音识别的语言模型的系统和方法。通过将来自用户的使用历史如查询记录的实体或用户动作映射到知识源,对特定用户个性化诸如知识图的知识源。个性化知识源可用于通过利用对应于出现在使用历史中的实体或实体对的查询训练语言模型来构建个人语言模型。在一些实施例中,用于特定用户的个性化知识源可以基于类似用户的个性化知识源来进行扩展。
-
公开(公告)号:CN106462608B
公开(公告)日:2019-11-12
申请号:CN201580025456.6
申请日:2015-05-15
Applicant: 微软技术许可有限责任公司
Inventor: M·阿克巴恰克 , D·Z·哈卡尼-图尔 , G·图尔 , L·P·赫克 , B·杜莫林
IPC: G06F16/635 , G06F16/332 , G06F16/36 , G10L15/18
Abstract: 提供了通过针对特定用户或用户群体特点将语言模型所使用的知识源个性化来改进用于话音识别的语言模型的系统和方法。通过将来自用户的使用历史如查询记录的实体或用户动作映射到知识源,对特定用户个性化诸如知识图的知识源。个性化知识源可用于通过利用对应于出现在使用历史中的实体或实体对的查询训练语言模型来构建个人语言模型。在一些实施例中,用于特定用户的个性化知识源可以基于类似用户的个性化知识源来进行扩展。
-
公开(公告)号:CN106104528A
公开(公告)日:2016-11-09
申请号:CN201580012103.2
申请日:2015-02-27
Applicant: 微软技术许可有限责任公司
Inventor: R·萨里卡亚 , F·A·塞利伊尔马斯 , Z·费伊佐拉西 , L·P·赫克 , D·Z·哈卡尼-图尔
CPC classification number: G10L15/1815 , G06F3/167 , G06F17/30654 , G10L15/00 , G10L15/22 , G10L2015/223 , G10L2015/228
Abstract: 提供了用于屏幕上项目选择和消歧的基于模型的方法。计算设备响应于在显示器屏幕上显示用于选择的项目列表而接收到言语。消歧模型随后可应用于言语。消歧模型可用于判定言语是否导向所显示的项目列表中的至少一个项目,从言语中提取参考特征,以及基于提取的参考特征来从对应于言语的列表中标识出项目。计算设备随后可以执行动作,所述动作包括选择与言语相关联的标识的项目。
-
-
-
-
-
-
-
-