-
公开(公告)号:CN113094469B
公开(公告)日:2022-07-05
申请号:CN202110363310.X
申请日:2021-04-02
Applicant: 清华大学
IPC: G06F16/33 , G06F40/211 , G06F40/279 , G06F40/295
Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。
-
公开(公告)号:CN114661916A
公开(公告)日:2022-06-24
申请号:CN202210220916.2
申请日:2022-03-08
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种三元组作为节点的知识图谱的表示学习方法、装置及设备,属于机器学习技术领域,方法通过初始化预测模型的参数,参数包括知识图谱中实体和关系的向量表示,知识图谱是三元组作为节点所构成的;遍历知识图谱中的每个三元组,确定预测模型针对每个三元组的损失;基于每个三元组的损失,利用优化器对实体和关系的向量表示进行优化,由于知识图谱本身是以三元组作为节点所构成的,该类型的知识图谱可以极大地丰富知识图谱的表示能力,且基于该知识图谱的表示学习方法,能够很好的对这类知识图谱进行表示学习。
-
公开(公告)号:CN111444713B
公开(公告)日:2022-04-29
申请号:CN201910038950.6
申请日:2019-01-16
Applicant: 清华大学
IPC: G06F40/289 , G06F40/295 , G06F40/211
Abstract: 本发明实施例提供一种新闻事件内实体关系抽取方法及装置,所述方法包括:提取目标新闻事件中与实体相关的语句,并确定目标实体对,提取所述目标实体对出现语句,生成实体对语句集合;分析实体对语句集合中各语句的语义特征,提取用以表示目标实体对关系的多个关键词;根据多个关键词在实体对语句集合中的TF‑IDF值进行排序,选取前N个关键词作为表征目标实体对关系的关系词。本发明不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。
-
公开(公告)号:CN114398884A
公开(公告)日:2022-04-26
申请号:CN202111468086.7
申请日:2021-12-03
Applicant: 清华大学
IPC: G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种新闻分类方法、装置、设备及介质,获取当前新闻数据;对所述当前新闻数据进行向量化处理,得到当前向量;确定所述当前向量和各历史聚类中心的第一距离中的最小距离;当所述最小距离小于预设值时,将所述当前向量添加到所述最小距离对应的历史聚类中心,得到待处理聚类中心;计算所述待处理聚类中心中任意两个向量之间的第二距离;当存在所述第二距离大于或等于所述预设值时,分割所述待处理聚类中心,得到至少两个子聚类中心;将包括有所述当前向量的子聚类中心对应的类别,作为所述当前新闻数据的类别。本发明以解决现有技术中新闻分类的准确率较低的缺陷。
-
公开(公告)号:CN114064910A
公开(公告)日:2022-02-18
申请号:CN202111152235.9
申请日:2021-09-29
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种知识图谱的构建方法及系统,本发明提供的知识图谱的构建方法及系统,通过获取原始数据和背景知识图谱,基于背景知识图谱,对原始数据进行知识建模,生成概念层数据,从而获得更为完整的概念层数据;同时,基于背景知识图谱,对原始数据进行百科三元组抽取和/或关系三元组抽取,获得实例层数据,从而利用百科三元组抽取和开放关系抽取相结合的方式获得更为完整的实例层数据;最后基于概念层数据和实例层数据,构建得到新的知识图谱,利用新的知识图谱可以对背景知识图谱进行更新,从而实现了对知识图谱的动态更新和在使用过程中的扩展。
-
公开(公告)号:CN114036956A
公开(公告)日:2022-02-11
申请号:CN202111371152.9
申请日:2021-11-18
Applicant: 清华大学
IPC: G06F40/30 , G06F40/295 , G06N3/04 , G06N3/08 , G06Q50/14
Abstract: 本发明提供一种旅游知识语义分析方法及装置。其中,该方法包括:获取待理解旅游知识文本;将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中,得到所述预训练语言模型输出的语义理解结果;其中,所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本,并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。本发明提供的旅游知识语义分析方法,能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析,以提高旅游知识文本语义理解的准确度和鲁棒性,从而提升用户的使用体验。
-
公开(公告)号:CN113705237A
公开(公告)日:2021-11-26
申请号:CN202110881415.4
申请日:2021-08-02
Applicant: 清华大学
IPC: G06F40/295 , G06F40/30 , G06F16/35
Abstract: 本发明提供一种融合关系短语知识的关系抽取方法、装置和电子设备,包括:确定待抽取关系语句,以及该语句中的待抽取关系的两个实体的位置信息;将所述待抽取关系语句和所述位置信息输入抽取模型,输出所述两个实体的关系类型;其中,所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的,所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。本发明提供的方法、装置和电子设备,实现了融合关系短语的语义信息到关系类型中,提高了语句中关系类型抽取的准确率。
-
公开(公告)号:CN113298253A
公开(公告)日:2021-08-24
申请号:CN202110621275.7
申请日:2021-06-03
Applicant: 清华大学
IPC: G06N3/08 , G06N3/04 , G06K9/62 , G06F40/295
Abstract: 本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置,该模型训练方法包括:将预定义类数据输入到由编码模块和分类模块构建的第一原型网络,得到学习后的编码模块;将预定义类数据分别输入到学习前后的编码模块,结果分别输入到组分类器进行训练;将其他类数据分别输入到学习前后的编码模块,结果分别输入到训练后的组分类器,得到其他类数据的分组结果;将预定义类数据和其他类数据输入到第二原型网络,对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置,通过利用预定义类的弱监督信号,能够有效地从其他类中挖掘更多的未定义类,从而利用其他类中丰富的语义信息,增强小样本命名实体识别能力。
-
公开(公告)号:CN113282720A
公开(公告)日:2021-08-20
申请号:CN202010126091.9
申请日:2020-02-20
Applicant: 清华大学
IPC: G06F16/332 , G06F16/583 , G06N5/04
Abstract: 本发明实施例提供一种视觉推理方法和装置,所述视觉推理方法包括:将待推理的图像解析为场景图;获取寻点模块、寻边模块、转移模块和逻辑模块;基于待解答的问题,确定与问题对应的模块序列,模块序列包括寻点模块、寻边模块、转移模块和逻辑模块中的至少部分的排列;将场景图按模块序列执行,确定推理结果。本发明的视觉推理方法,基于场景图来进行推理,且针对场景图的结构,设计了四种简单、高效、通用的元推理模块,可以大大减少参数量,并且可以通过组装这些元模块来得到功能更为复杂的模块,使得该推理方法的通用性强。
-
公开(公告)号:CN113158673A
公开(公告)日:2021-07-23
申请号:CN202110326886.9
申请日:2021-03-26
Applicant: 清华大学
IPC: G06F40/295 , G06F40/242 , G06K9/62 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种单篇文档分析方法和装置,包括:对文档进行分类;对文档进行实体链接,得到实体链接结果;对文档进行分句、分词处理和词性标注处理,对处理结果分别进行关键词抽取、命名实体识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果和开放关系抽取结果;将实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到实体合并结果;基于实体链接结果进行关系扩展,得到关系扩展结果;根据分句得到的句子和实体合并结果进行共现关系计算,得到共现关系确定结果;基于关系扩展结果、开放关系抽取结果和共现关系确定结果得到文档的分析结果。本发明能够帮助用户对文档进行快速查阅和分析,得到准确全面的分析结果。
-
-
-
-
-
-
-
-
-