-
公开(公告)号:CN109063032B
公开(公告)日:2020-09-11
申请号:CN201810777795.5
申请日:2018-07-16
Applicant: 清华大学
IPC: G06F16/33 , G06F16/332
Abstract: 本发明提供一种远程监督检索数据的降噪方法,包括:对于给定问题和基于给定问题检索到的多个段落,计算给定问题的答案在各段落上的概率分布;基于给定问题和任一段落,利用段落阅读器,提取该段落中与答案对应的至少一个特定子串,并计算特定子串关于该段落为答案的概率,作为第一概率,直至遍历所有段落;基于概率分布和所有段落中特定子串对应的第一概率,选择相应的段落,对给定问题进行回答;其中,特定子串为由一个或多个单词组成的单词串。本发明能够更充分的利用检索到的相关文本中对回答问题有帮助的所有段落,从而更有效的提高开放域问答的问答效果,提高模型的稳定性,具有良好的实用性。
-
公开(公告)号:CN109597988A
公开(公告)日:2019-04-09
申请号:CN201811288136.1
申请日:2018-10-31
Applicant: 清华大学
IPC: G06F17/27
Abstract: 本发明实施例提供一种跨语言的词汇义原预测方法、装置与电子设备,该方法包括:分别确定源语言词向量和目标语言词向量学习的损失函数;分别确定词向量对齐和融入义原信息的损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于源语言词与目标语言词对和源语言内已建立的义原知识库,对上述各损失函数进行优化,获取同属一个语义空间的双语词向量;基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测。本发明实施例能够合理利用已有义原知识库为跨语言词汇进行义原预测,从而有效节约义原预测的人力和时间成本。
-
公开(公告)号:CN108052625A
公开(公告)日:2018-05-18
申请号:CN201711366934.7
申请日:2017-12-18
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提供一种实体精细分类方法,包括:基于目标实体文本中各单词对应的单词向量,计算实体表示向量;基于句子中目标实体文本两侧各单词分别对应的语境单词向量,获取目标实体文本的基础语境向量;基于目标实体文本的知识库表示向量和基础语境向量,计算所述两侧各单词分别对应的知识库相关注意力值;基于所述知识库相关注意力值及所述基础语境向量,计算目标实体文本的知识库相关语境向量;合并所述目标实体文本的实体表示向量和知识库相关语境向量,获取句子表示向量,基于该句子表示向量,利用于建的目标分类器模型,获取目标实体文本属于各给定类别的概率。本发明能够有效提高分类模型的稳定性,并有效改善实体精细分类的效果。
-
公开(公告)号:CN107273349A
公开(公告)日:2017-10-20
申请号:CN201710322534.X
申请日:2017-05-09
Applicant: 清华大学
Abstract: 本发明公开一种基于多种语言的实体关系抽取方法及服务器。其中,所述方法包括:在多种语言中获取待抽取关系的两个实体以及在每种语言中第一预设数量的与所述两个实体相关的句子,并构建每个与两个实体相关的句子的向量表示;根据某一种语言中每个与两个实体相关的句子的向量表示以及预设的两个实体间的关系的向量表示,获得所述某一种语言中与两个实体相关的句子相对于多种语言中任意一种语言的综合向量表示;根据各个所述综合向量表示以及预先建立的关系抽取模型,在所述预设的两个实体间的关系中抽取两个实体间的关系。所述服务器用于执行上述方法。本发明提供的基于多种语言的实体关系抽取方法及服务器,提高了两个实体间关系抽取的准确性。
-
公开(公告)号:CN112084331B
公开(公告)日:2024-09-06
申请号:CN202010881097.7
申请日:2020-08-27
Applicant: 清华大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/295 , G06F40/268 , G06F40/211 , G06F40/58 , G06F16/34 , G06F18/25 , G06N3/0455 , G06N3/042 , G06N3/08
Abstract: 本申请涉及一种文本处理、模型训练方法、装置、计算机设备和存储介质。文本处理方法包括:获取待处理的目标文本,对目标文本进行编码,得到目标文本编码向量;获取目标文本中的目标实体,确定目标实体对应的第一关联实体;根据第一关联实体的实体表示向量以及对应的注意力权重,确定目标实体对应的目标知识表示向量;将目标文本编码向量与目标实体对应的目标知识表示向量进行融合处理,得到目标融合结果;根据目标融合结果确定目标文本对应的文本处理结果。本申请实施例的文本处理结果可以是基于人工智能的文本处理模型处理得到的,采用本方法能够提高得到的文本处理结果的准确度。
-
公开(公告)号:CN113761122A
公开(公告)日:2021-12-07
申请号:CN202110546916.7
申请日:2021-05-19
Applicant: 清华大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/33 , G06F16/335 , G06F16/36 , G06F16/35 , G06F40/30
Abstract: 本申请实施例公开了一种事件抽取方法、相关装置、设备及存储介质,用于将句级自然语言转化为结点和边,再将结点和边转化为语义特征来进行事件抽取,能够保证获取事件的精度。本申请实施例方法包括:获取待处理文本;根据待处理文本生成抽象语义表示,抽象语义表示包括与词语一一对应的结点,以及用于连接结点之间边;对抽象语义和文本表示进行语义编码处理,得到语义嵌入向量,语义嵌入向量用于表示每个词语的与事件之间的语义特征;对抽象语义表示进行图编码处理,得到图嵌入向量,其中,图嵌入向量为用于表示通过边相连接的结点的结构特征;将语义嵌入向量与图嵌入向量进行拼接,得到拼接特征向量;对拼接特征向量进行识别,输出目标事件。
-
公开(公告)号:CN112100375A
公开(公告)日:2020-12-18
申请号:CN202010949883.6
申请日:2020-09-10
Applicant: 清华大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F16/34 , G06F40/205 , G06N3/08 , G06F40/186
Abstract: 本申请实施例公开了一种文本信息生成方法、装置、存储介质以及设备,涉及人工智能技术领域,其中,该方法包括:获取第一原始文本信息;对第一原始文本信息进行标签识别,得到第一原始文本信息的第一预测属性情感标签;采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的第二预测属性情感标签;根据第一原始文本信息、第一预测文本信息、第一预测属性情感标签以及第二预测属性情感标签,对文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。通过本申请能够降低训练文本生成模型的复杂度,提高文本生成模型的准确度。
-
公开(公告)号:CN111782826A
公开(公告)日:2020-10-16
申请号:CN202010881365.5
申请日:2020-08-27
Applicant: 清华大学 , 腾讯科技(深圳)有限公司
IPC: G06F16/36
Abstract: 本申请实施例提供了一种知识图谱的信息处理方法、装置、设备及存储介质,涉及知识图谱和机器学习技术领域。所述方法包括:获取多个图谱学习任务分别对应的知识图谱;对前k-1个图谱学习任务中出现的历史实体的向量表示和历史关系的向量表示进行维度扩展处理;确定第k个知识图谱中的新增实体的初始向量表示和新增关系的初始向量表示;在执行第k个学习任务的过程中,对目标实体的初始向量表示和目标关系的初始向量表示进行调整;对目标实体的学习后向量表示和目标关系的学习后向量表示进行维度压缩处理,得到目标实体的向量表示和目标关系的向量表示。本申请实施例提供的技术方案,能够提升知识图谱学习的准确性。
-
公开(公告)号:CN109597988B
公开(公告)日:2020-04-28
申请号:CN201811288136.1
申请日:2018-10-31
Applicant: 清华大学
IPC: G06F40/284 , G06F40/289 , G06F40/30
Abstract: 本发明实施例提供一种跨语言的词汇义原预测方法、装置与电子设备,该方法包括:分别确定源语言词向量和目标语言词向量学习的损失函数;分别确定词向量对齐和融入义原信息的损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于源语言词与目标语言词对和源语言内已建立的义原知识库,对上述各损失函数进行优化,获取同属一个语义空间的双语词向量;基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测。本发明实施例能够合理利用已有义原知识库为跨语言词汇进行义原预测,从而有效节约义原预测的人力和时间成本。
-
公开(公告)号:CN109063032A
公开(公告)日:2018-12-21
申请号:CN201810777795.5
申请日:2018-07-16
Applicant: 清华大学
IPC: G06F17/30
Abstract: 本发明提供一种远程监督检索数据的降噪方法,包括:对于给定问题和基于给定问题检索到的多个段落,计算给定问题的答案在各段落上的概率分布;基于给定问题和任一段落,利用段落阅读器,提取该段落中与答案对应的至少一个特定子串,并计算特定子串关于该段落为答案的概率,作为第一概率,直至遍历所有段落;基于概率分布和所有段落中特定子串对应的第一概率,选择相应的段落,对给定问题进行回答;其中,特定子串为由一个或多个单词组成的单词串。本发明能够更充分的利用检索到的相关文本中对回答问题有帮助的所有段落,从而更有效的提高开放域问答的问答效果,提高模型的稳定性,具有良好的实用性。
-
-
-
-
-
-
-
-
-