多模态对话状态处理方法、装置、介质及计算设备

    公开(公告)号:CN109902155A

    公开(公告)日:2019-06-18

    申请号:CN201811645010.5

    申请日:2018-12-29

    Applicant: 清华大学

    Inventor: 黄民烈 朱小燕

    Abstract: 本发明的实施方式提供了一种用于人机对话的多模态对话状态处理方法、装置、介质及计算设备。该方法包括:根据当前轮次的用户输入文本内容,获得当前轮次的用户文本特征;针对当前轮次要处理的至少一个属性类目中的每一个:对于该属性类目对应的每一种预设属性值,获得当前轮次的用户视觉特征和系统视觉特征;获得当前轮次的用户文本特征、用户视觉特征和系统视觉特征的结合特征,以基于结合特征,获得该属性类目在其对应的多种预设属性值上的概率分布。本发明的上述用于人机对话的多模态对话状态处理方法、装置、介质及计算设备,能够准确地理解多模态信息输入,并自适应地整合这些模态以进行对话状态的追踪。

    一种中文的观点、评价信息的属性-观点对抽取方法

    公开(公告)号:CN102637165A

    公开(公告)日:2012-08-15

    申请号:CN201210038746.2

    申请日:2012-02-17

    Applicant: 清华大学

    Inventor: 黄民烈 朱小燕

    Abstract: 公开了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法,包括以下步骤:(1)对中文的观点、评价信息进行分词和词性标注,得到观点、评价信息中的每一个词及对应的词性;(2)抽取属性-观点对;(3)统计正面、负面属性-观点对出现的次数,然后判断是否正面出现次数大于负面出现次数,如果是则为正面属性-观点对,否则为负面属性-观点对。

    基于动态规划的文本概念关系自动提取方法

    公开(公告)号:CN1696933A

    公开(公告)日:2005-11-16

    申请号:CN200510011803.8

    申请日:2005-05-27

    Applicant: 清华大学

    Abstract: 基于动态规划的文本概念关系自动提取方法属于计算机语言信息处理领域,其特征在于:它首先把文本中的句子视作句法标记的序列并予以编码化,在此基础上得到对齐模型的参数;利用该对齐模型把训练数据中的句子序列两两对齐,把对齐的部分看作模板候选,并设计了相应的模板结构,再利用过滤规则进行筛选,建立实用的模板库;最后通过模板匹配方法,从匹配结果中利用转换规则,自动得到最终的概念间关系。它具有模型参数简单,算法复杂度低和性能优越的优点。

    一种文本生成方法及系统
    24.
    发明授权

    公开(公告)号:CN113111188B

    公开(公告)日:2022-08-09

    申请号:CN202110400913.2

    申请日:2021-04-14

    Applicant: 清华大学

    Abstract: 本发明提供一种文本生成方法及系统,包括:获取待输入的知识图谱;将所述待输入的知识图谱输入至文本生成框架,构建所述知识图谱与输出文本的对齐关系模型;其中所述文本生成框架是基于知识图谱和文本联合表示学习所得到的。本发明通过基于知识图谱和文本联合表示学习的文本生成框架,能够在编码端引入知识图谱结构信息的同时,构建输入图谱和输出文本的显式对齐关系,达到现有模型最优性能。

    一种知识驱动的对话生成方法及装置

    公开(公告)号:CN113111190A

    公开(公告)日:2021-07-13

    申请号:CN202110413536.6

    申请日:2021-04-16

    Applicant: 清华大学

    Abstract: 本发明提供一种知识驱动的对话生成方法及装置,包括:将待回复文本序列输入训练好的深度神经网路对话模型,得到所述待回复文本的回复文本序列;其中,所述深度神经网路对话模型储存有知识图谱实体关系的特征表示数据集;其中,所述训练好的深度神经网路对话模型是根据携带真实回复文本序列标签的待回复文本样本序列和所述知识图谱实体关系的特征表示数据集进行训练后得到的。通过本发明的方法,根据待回复文本中的非结构化信息和知识图谱的结构化信息,基于训练好的深度神经网络对话模型,计算出知识图谱中的实体表示,可以更高效地应用知识图谱来生成具有恰当语义和丰富信息量的对话回复。

    模型获取方法、关键词生成方法、装置、介质及计算设备

    公开(公告)号:CN109960749B

    公开(公告)日:2021-04-06

    申请号:CN201910136539.2

    申请日:2019-02-22

    Applicant: 清华大学

    Abstract: 本发明的实施方式提供了一种模型获取方法、关键词生成方法、装置、介质及计算设备。模型获取方法包括:构建关键词生成模型,该模型包括基于编码器‑注意力机制‑解码器框架的主模块;在监督学习阶段,针对每个训练数据对,主模块基于其中源关键词和参考目标关键词的语义和领域信息构建概率分布,从概率分布中采样第一隐变量,生成第一目标关键词;通过最小化主模块的损失函数,利用梯度反向传播方式来更新主模块的参数。本发明的上述技术能够生成热门高频关键词以外的低频相关关键词,通过引入领域约束使生成的目标关键词与源关键词的领域更相关;此外,还可利用强化学习进一步地提高关键词的相关性和领域一致性。

    对话系统中提问的方法及装置、电子设备、计算机可读介质

    公开(公告)号:CN108491514A

    公开(公告)日:2018-09-04

    申请号:CN201810251972.6

    申请日:2018-03-26

    Applicant: 清华大学

    Inventor: 黄民烈 朱小燕

    Abstract: 本公开涉及一种对话系统中提问的方法及装置、电子设备和计算机可读介质。属于计算机技术领域,该对话系统中提问的方法包括:接收输入信息;通过模型的编码器将所述输入信息编码成隐状态序列;将所述隐状态序列输入至所述模型的解码器,生成相应的输出信息;其中,组成所述输出信息的每个词分别属于预先定义的预设数量的词类型中的一种,所述输出信息相关于所述输入信息。

    一种从文档集中挖掘特征词的系统和方法

    公开(公告)号:CN104573027B

    公开(公告)日:2018-07-24

    申请号:CN201510017522.7

    申请日:2015-01-13

    Applicant: 清华大学

    Abstract: 本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。

    一种基于维基百科度量概念之间语义相关度的方法

    公开(公告)号:CN102646113A

    公开(公告)日:2012-08-22

    申请号:CN201210037968.2

    申请日:2012-02-17

    Applicant: 清华大学

    Abstract: 公开了一种能推荐与给定概念语义上最相关的概念,能用维基百科中的类别来表示概念之间的语义关系的基于维基百科度量概念之间语义相关度的方法,包括离线步骤和在线步骤:在离线步骤中,从维基百科的原始数据中生成概念之间的初始关系和概念与类别之间的初始关系;用一个迭代算法来将两种关系相互平滑,最后存储到索引中;在在线步骤中,给定一个概念,推荐和这个概念语义上最相关的概念,并用维基分类来表示每个推荐出来的概念和原概念之间的关系。

    一种自然语言问答的方法
    30.
    发明公开

    公开(公告)号:CN102637192A

    公开(公告)日:2012-08-15

    申请号:CN201210038756.6

    申请日:2012-02-17

    Applicant: 清华大学

    Abstract: 公开了一种及时有效地回答用户问题的自然语言问答的方法,包括以下步骤:(1)对于用户输入的问题进行问题分析;(2)利用问题分析的结果以及社区问答的语料对问题作答;(3)利用问题分析的结果以及百科语料对问题作答;(4)对于从步骤(2)、(3)返回的答案,进行答案验证及选择,并最终返回最佳答案给用户。

Patent Agency Ranking