用于多模式会话交互中的口头语言理解的眼睛注视

    公开(公告)号:CN107077201A

    公开(公告)日:2017-08-18

    申请号:CN201580050763.X

    申请日:2015-09-25

    Abstract: 描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。

    用于对话理解系统的会话上下文建模的方法和系统

    公开(公告)号:CN106575503B

    公开(公告)日:2020-12-25

    申请号:CN201580032500.6

    申请日:2015-06-17

    Abstract: 提供了用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的系统和方法。知识源(如知识图)用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。根据用户交互的序列,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不一定出现在使用历史中的参数。以这种方式,会话上下文模型可以用于在给定此前的轮次或一些轮次的情况下确定来自用户的可能的接下来的交互或“轮次”。然后对与可能的接下来的轮次相对应的语言模型进行内插,并提供其以改进从用户接收的接下来的轮次的识别准确度。

    用于多模式会话交互中的口头语言理解的眼睛注视

    公开(公告)号:CN107077201B

    公开(公告)日:2020-06-23

    申请号:CN201580050763.X

    申请日:2015-09-25

    Abstract: 描述了改进对与计算机化会话系统相关联的视觉上下文中的视觉元素的引用的理解和/或解析的准确性。本文描述的技术利用注视输入与姿势和/或语音输入来改进计算机化会话系统中的口头语言理解。通过改进系统能够关于视觉上下文中的视觉元素来解析引用(或解释用户的意图)的准确性,利用注视输入和语音输入改善了会话系统中的口头语言理解。在至少一个示例中,本文中的技术描述了跟踪注视以生成注视输入,标识语音输入以及从该用户输入提取注视特征和词汇特征。至少部分地基于该注视特征和该词汇特征,可以解析被指向视觉上下文中的视觉元素的用户话语。

    在参与者之间的对话中检测可行动项

    公开(公告)号:CN108028043B

    公开(公告)日:2021-11-19

    申请号:CN201680056137.6

    申请日:2016-09-17

    Abstract: 本文描述了用于检测语音中的可行动项的计算机实现的技术。在一种操作方式中,该技术需要:接收话语信息,该话语信息表达由对话的一个参与者向对话的至少一个其他参与者说出的至少一个话语;将话语信息转换为识别的语音信息;使用机器训练的模型来识别与识别的语音信息相关联的至少一个可行动项;以及执行与一个或多个可行动项相关联的至少一个计算机实现的动作。机器训练的模型可以对应于深度结构的卷积神经网络。在一些实现方式中,该技术使用源环境语料库来产生机器训练的模型,该源环境语料库并非最佳地适用该模型旨在被应用于其中的目标环境。该技术进一步提供了用于适配源‑环境模型以使得其更适合目标环境的各种适配技术。

    在参与者之间的对话中检测可行动项

    公开(公告)号:CN108028043A

    公开(公告)日:2018-05-11

    申请号:CN201680056137.6

    申请日:2016-09-17

    Abstract: 本文描述了用于检测语音中的可行动项的计算机实现的技术。在一种操作方式中,该技术需要:接收话语信息,该话语信息表达由对话的一个参与者向对话的至少一个其他参与者说出的至少一个话语;将话语信息转换为识别的语音信息;使用机器训练的模型来识别与识别的语音信息相关联的至少一个可行动项;以及执行与一个或多个可行动项相关联的至少一个计算机实现的动作。机器训练的模型可以对应于深度结构的卷积神经网络。在一些实现方式中,该技术使用源环境语料库来产生机器训练的模型,该源环境语料库并非最佳地适用该模型旨在被应用于其中的目标环境。该技术进一步提供了用于适配源‑环境模型以使得其更适合目标环境的各种适配技术。

    用于对话理解系统的会话上下文建模

    公开(公告)号:CN106575503A

    公开(公告)日:2017-04-19

    申请号:CN201580032500.6

    申请日:2015-06-17

    Abstract: 提供了用于通过将语言模型所使用的知识源适用于会话上下文来改进用于语音识别的语言模型的系统和方法。知识源(如知识图)用于基于来自映射到知识源的使用历史(如会话日志)的用户交互信息来对动态会话上下文进行捕捉和建模。根据用户交互的序列,可以确定较高级别的意图序列,并将其用于形成预期类似意图但具有不同参数的模型,所述参数包括不一定出现在使用历史中的参数。以这种方式,会话上下文模型可以用于在给定此前的轮次或一些轮次的情况下确定来自用户的可能的接下来的交互或“轮次”。然后对与可能的接下来的轮次相对应的语言模型进行内插,并提供其以改进从用户接收的接下来的轮次的识别准确度。

    改进语言模型的知识源个性化

    公开(公告)号:CN106462608A

    公开(公告)日:2017-02-22

    申请号:CN201580025456.6

    申请日:2015-05-15

    Abstract: 提供了通过针对特定用户或用户群体特点将语言模型所使用的知识源个性化来改进用于话音识别的语言模型的系统和方法。通过将来自用户的使用历史如查询记录的实体或用户动作映射到知识源,对特定用户个性化诸如知识图的知识源。个性化知识源可用于通过利用对应于出现在使用历史中的实体或实体对的查询训练语言模型来构建个人语言模型。在一些实施例中,用于特定用户的个性化知识源可以基于类似用户的个性化知识源来进行扩展。

Patent Agency Ranking