-
公开(公告)号:CN114064910A
公开(公告)日:2022-02-18
申请号:CN202111152235.9
申请日:2021-09-29
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种知识图谱的构建方法及系统,本发明提供的知识图谱的构建方法及系统,通过获取原始数据和背景知识图谱,基于背景知识图谱,对原始数据进行知识建模,生成概念层数据,从而获得更为完整的概念层数据;同时,基于背景知识图谱,对原始数据进行百科三元组抽取和/或关系三元组抽取,获得实例层数据,从而利用百科三元组抽取和开放关系抽取相结合的方式获得更为完整的实例层数据;最后基于概念层数据和实例层数据,构建得到新的知识图谱,利用新的知识图谱可以对背景知识图谱进行更新,从而实现了对知识图谱的动态更新和在使用过程中的扩展。
-
公开(公告)号:CN114036956A
公开(公告)日:2022-02-11
申请号:CN202111371152.9
申请日:2021-11-18
Applicant: 清华大学
IPC: G06F40/30 , G06F40/295 , G06N3/04 , G06N3/08 , G06Q50/14
Abstract: 本发明提供一种旅游知识语义分析方法及装置。其中,该方法包括:获取待理解旅游知识文本;将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中,得到所述预训练语言模型输出的语义理解结果;其中,所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本,并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。本发明提供的旅游知识语义分析方法,能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析,以提高旅游知识文本语义理解的准确度和鲁棒性,从而提升用户的使用体验。
-
公开(公告)号:CN113705237A
公开(公告)日:2021-11-26
申请号:CN202110881415.4
申请日:2021-08-02
Applicant: 清华大学
IPC: G06F40/295 , G06F40/30 , G06F16/35
Abstract: 本发明提供一种融合关系短语知识的关系抽取方法、装置和电子设备,包括:确定待抽取关系语句,以及该语句中的待抽取关系的两个实体的位置信息;将所述待抽取关系语句和所述位置信息输入抽取模型,输出所述两个实体的关系类型;其中,所述抽取模型是基于样本语句、对应的样本头尾实体位置和对应的头尾实体间关系类型标签进行训练得到的,所述抽取模型训练时的网络结构包括语句编码器、协同切割关系短语表示网络、关系记忆网络和关系短语类别分类网络。本发明提供的方法、装置和电子设备,实现了融合关系短语的语义信息到关系类型中,提高了语句中关系类型抽取的准确率。
-
公开(公告)号:CN113298253A
公开(公告)日:2021-08-24
申请号:CN202110621275.7
申请日:2021-06-03
Applicant: 清华大学
IPC: G06N3/08 , G06N3/04 , G06K9/62 , G06F40/295
Abstract: 本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置,该模型训练方法包括:将预定义类数据输入到由编码模块和分类模块构建的第一原型网络,得到学习后的编码模块;将预定义类数据分别输入到学习前后的编码模块,结果分别输入到组分类器进行训练;将其他类数据分别输入到学习前后的编码模块,结果分别输入到训练后的组分类器,得到其他类数据的分组结果;将预定义类数据和其他类数据输入到第二原型网络,对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置,通过利用预定义类的弱监督信号,能够有效地从其他类中挖掘更多的未定义类,从而利用其他类中丰富的语义信息,增强小样本命名实体识别能力。
-
公开(公告)号:CN113282720A
公开(公告)日:2021-08-20
申请号:CN202010126091.9
申请日:2020-02-20
Applicant: 清华大学
IPC: G06F16/332 , G06F16/583 , G06N5/04
Abstract: 本发明实施例提供一种视觉推理方法和装置,所述视觉推理方法包括:将待推理的图像解析为场景图;获取寻点模块、寻边模块、转移模块和逻辑模块;基于待解答的问题,确定与问题对应的模块序列,模块序列包括寻点模块、寻边模块、转移模块和逻辑模块中的至少部分的排列;将场景图按模块序列执行,确定推理结果。本发明的视觉推理方法,基于场景图来进行推理,且针对场景图的结构,设计了四种简单、高效、通用的元推理模块,可以大大减少参数量,并且可以通过组装这些元模块来得到功能更为复杂的模块,使得该推理方法的通用性强。
-
公开(公告)号:CN113158673A
公开(公告)日:2021-07-23
申请号:CN202110326886.9
申请日:2021-03-26
Applicant: 清华大学
IPC: G06F40/295 , G06F40/242 , G06K9/62 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种单篇文档分析方法和装置,包括:对文档进行分类;对文档进行实体链接,得到实体链接结果;对文档进行分句、分词处理和词性标注处理,对处理结果分别进行关键词抽取、命名实体识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果和开放关系抽取结果;将实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到实体合并结果;基于实体链接结果进行关系扩展,得到关系扩展结果;根据分句得到的句子和实体合并结果进行共现关系计算,得到共现关系确定结果;基于关系扩展结果、开放关系抽取结果和共现关系确定结果得到文档的分析结果。本发明能够帮助用户对文档进行快速查阅和分析,得到准确全面的分析结果。
-
公开(公告)号:CN113094469A
公开(公告)日:2021-07-09
申请号:CN202110363310.X
申请日:2021-04-02
Applicant: 清华大学
IPC: G06F16/33 , G06F40/211 , G06F40/279 , G06F40/295
Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。
-
公开(公告)号:CN112541087A
公开(公告)日:2021-03-23
申请号:CN202011507799.5
申请日:2020-12-18
Applicant: 清华大学
IPC: G06F16/36
Abstract: 本发明提供一种基于百科的跨语言知识图谱构建方法及装置,所述方法包括:获取目标领域的原始百科数据,原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对原始百科数据进行预处理,获得经过预处理后的目标数据;基于经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;执行知识融合操作,生成所述目标领域的知识图谱。本发明实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。
-
公开(公告)号:CN112527981A
公开(公告)日:2021-03-19
申请号:CN202011312007.9
申请日:2020-11-20
Applicant: 清华大学
IPC: G06F16/332 , G06F16/36 , G06F16/953
Abstract: 本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立图表示模型,根据图表示模型,获取候选三元组的重要性分值,对待提取文档中的候选三元组进行筛选,获取抽取结果,能提高开放式信息抽取的准确率。
-
公开(公告)号:CN112487213A
公开(公告)日:2021-03-12
申请号:CN202011507796.1
申请日:2020-12-18
Applicant: 清华大学
IPC: G06F16/36 , G06F40/289
Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。
-
-
-
-
-
-
-
-
-