文本数据分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113094469A

    公开(公告)日:2021-07-09

    申请号:CN202110363310.X

    申请日:2021-04-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。

    基于百科的跨语言知识图谱构建方法及装置

    公开(公告)号:CN112541087A

    公开(公告)日:2021-03-23

    申请号:CN202011507799.5

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种基于百科的跨语言知识图谱构建方法及装置,所述方法包括:获取目标领域的原始百科数据,原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对原始百科数据进行预处理,获得经过预处理后的目标数据;基于经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;执行知识融合操作,生成所述目标领域的知识图谱。本发明实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。

    开放式信息抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN112527981A

    公开(公告)日:2021-03-19

    申请号:CN202011312007.9

    申请日:2020-11-20

    Applicant: 清华大学

    Abstract: 本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立图表示模型,根据图表示模型,获取候选三元组的重要性分值,对待提取文档中的候选三元组进行筛选,获取抽取结果,能提高开放式信息抽取的准确率。

    跨语言领域知识图谱构建方法及装置

    公开(公告)号:CN112487213A

    公开(公告)日:2021-03-12

    申请号:CN202011507796.1

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

    基于多语言的阅读理解任务识别方法及装置

    公开(公告)号:CN112182151A

    公开(公告)日:2021-01-05

    申请号:CN202011012758.9

    申请日:2020-09-23

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到。该方法能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务,可以提高目标语言少数据以及富数据的抽取式阅读理解任务的准确度。

    一种专利空白预测方法及系统

    公开(公告)号:CN112100398A

    公开(公告)日:2020-12-18

    申请号:CN202010931215.0

    申请日:2020-09-07

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种专利空白预测方法及系统,包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。本发明实施例提供的专利空白预测方法及系统,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。

    一种基于表示学习的知识库实体分类的计算方法

    公开(公告)号:CN107545033B

    公开(公告)日:2020-12-01

    申请号:CN201710608234.8

    申请日:2017-07-24

    Applicant: 清华大学

    Abstract: 本发明涉及一种基于表示学习的知识库实体分类的计算装置,涉及文本分类和知识库补全领域。所述方法包括步骤:对于知识库中的实体,构造包含不同层次信息的共现网络,将词语‑词语,实体‑词语,类别‑词语,实体‑类别之间的共现信息编码到网络中;基于构造的共现网络,利用基于网络的表示学习方法,学习实体和类别的向量表示;基于学习得到的向量表示,利用学习排序算法,为实体和类别学习映射矩阵,语义上相关的实体和类别在语义空间中接近;利用自顶向下的搜索方法,为知识库中的实体自动分配类别,得到一条类别的路径。本发明方法有利于解决现有实体分类方法中存在的问题。

    事件检测模型的构建方法、装置、电子设备及存储介质

    公开(公告)号:CN111813931A

    公开(公告)日:2020-10-23

    申请号:CN202010548917.0

    申请日:2020-06-16

    Applicant: 清华大学

    Abstract: 本发明实施例提供了一种基于开放域知识增强的事件检测深度学习模型的构建方法、装置、电子设备及存储介质,方法包括:获取标注数据和未标注数据;将标注数据输入到第一事件分类模型中,进行训练;根据外部语义库采用义原映射算法,对未标注数据中的第一数据子集进行处理,得到开放域触发词识别结果;根据开放域触发词识别结果和第二数据子集,采用知识蒸馏的方式,对第二事件分类模型进行训练;对训练后的第一事件分类模型和训练后的第二事件分类模型进行联合训练,得到基于开放域知识增强的事件检测深度学习模型。本发明实施例得到的基于开放域知识增强的事件检测深度学习模型可以有效解决各类标注分布不均匀的长尾难题。

    一种基于表示学习的知识库实体分类的计算方法

    公开(公告)号:CN107545033A

    公开(公告)日:2018-01-05

    申请号:CN201710608234.8

    申请日:2017-07-24

    Applicant: 清华大学

    Abstract: 本发明涉及一种基于表示学习的知识库实体分类的计算装置,涉及文本分类和知识库补全领域。所述方法包括步骤:对于知识库中的实体,构造包含不同层次信息的共现网络,将词语-词语,实体-词语,类别-词语,实体-类别之间的共现信息编码到网络中;基于构造的共现网络,利用基于网络的表示学习方法,学习实体和类别的向量表示;基于学习得到的向量表示,利用学习排序算法,为实体和类别学习映射矩阵,语义上相关的实体和类别在语义空间中接近;利用自顶向下的搜索方法,为知识库中的实体自动分配类别,得到一条类别的路径。本发明方法有利于解决现有实体分类方法中存在的问题。

    一种多策略组合的本体或实例匹配方法

    公开(公告)号:CN102306177A

    公开(公告)日:2012-01-04

    申请号:CN201110247261.X

    申请日:2011-08-25

    Applicant: 清华大学

    Abstract: 本发明公开了一种多策略组合的本体或实例匹配方法,涉及语义万维网领域。所述方法包括步骤:对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。所述方法提高了最终匹配结果的准确度,有利于更好的解决链接数据模式层和实例层的异构问题。

Patent Agency Ranking