知识图谱的构建方法及系统
    11.
    发明公开

    公开(公告)号:CN114064910A

    公开(公告)日:2022-02-18

    申请号:CN202111152235.9

    申请日:2021-09-29

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱的构建方法及系统,本发明提供的知识图谱的构建方法及系统,通过获取原始数据和背景知识图谱,基于背景知识图谱,对原始数据进行知识建模,生成概念层数据,从而获得更为完整的概念层数据;同时,基于背景知识图谱,对原始数据进行百科三元组抽取和/或关系三元组抽取,获得实例层数据,从而利用百科三元组抽取和开放关系抽取相结合的方式获得更为完整的实例层数据;最后基于概念层数据和实例层数据,构建得到新的知识图谱,利用新的知识图谱可以对背景知识图谱进行更新,从而实现了对知识图谱的动态更新和在使用过程中的扩展。

    单篇文档分析方法和装置
    12.
    发明公开

    公开(公告)号:CN113158673A

    公开(公告)日:2021-07-23

    申请号:CN202110326886.9

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明提供一种单篇文档分析方法和装置,包括:对文档进行分类;对文档进行实体链接,得到实体链接结果;对文档进行分句、分词处理和词性标注处理,对处理结果分别进行关键词抽取、命名实体识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果和开放关系抽取结果;将实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到实体合并结果;基于实体链接结果进行关系扩展,得到关系扩展结果;根据分句得到的句子和实体合并结果进行共现关系计算,得到共现关系确定结果;基于关系扩展结果、开放关系抽取结果和共现关系确定结果得到文档的分析结果。本发明能够帮助用户对文档进行快速查阅和分析,得到准确全面的分析结果。

    文本数据分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113094469A

    公开(公告)日:2021-07-09

    申请号:CN202110363310.X

    申请日:2021-04-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。

    基于百科的跨语言知识图谱构建方法及装置

    公开(公告)号:CN112541087A

    公开(公告)日:2021-03-23

    申请号:CN202011507799.5

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种基于百科的跨语言知识图谱构建方法及装置,所述方法包括:获取目标领域的原始百科数据,原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对原始百科数据进行预处理,获得经过预处理后的目标数据;基于经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;执行知识融合操作,生成所述目标领域的知识图谱。本发明实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。

    跨语言领域知识图谱构建方法及装置

    公开(公告)号:CN112487213A

    公开(公告)日:2021-03-12

    申请号:CN202011507796.1

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

    基于新闻事件的关系分析方法及装置

    公开(公告)号:CN113158672B

    公开(公告)日:2024-11-08

    申请号:CN202110326769.2

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明提供一种基于新闻事件的关系分析方法及装置,其中方法包括:获取多篇新闻文本;对多篇新闻文本进行聚类,得到聚类后的多个新闻事件;对多个新闻事件进行实体链接、实体抽取、实体关系抽取、事件关系抽取、实体与事件关系抽取,根据实体链接结果、实体抽取结果、实体关系抽取结果、事件关系抽取结果、实体与事件关系抽取结果进行关联分析得到分析结果。本发明通过原始新闻文本聚类实现新闻事件级别分析,得到多个事件,再通过对事件文本抽取实体、实体关系、事件关系、事件与实体的关系。进而通过实体链接,将实体背景知识进行补充,实现对事件的深层次挖掘,从而使读者能够获得更全面和深入的信息。

    知识图谱的构建方法和装置
    17.
    发明公开

    公开(公告)号:CN113268607A

    公开(公告)日:2021-08-17

    申请号:CN202110586751.6

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱构建方法和装置,其中,方法包括对原始数据进行实体链接、关键词抽取以及命名实体识别,获得相应的结果;对相应的结果进行实体合并,得到实体列表;将实体列表中的实体作为关键词对原始数据进行文本检索,得到包含实体的文本;对包含实体的所有文本进行处理,得到表示实体的第一实体相关信息;将实体列表中的实体作为关键词输入背景知识图谱中,得到实体在背景知识图谱中的第二实体相关信息;将实体列表、第一实体相关信息,实体在背景知识图谱中的第二实体相关信息进行融合,得到新的知识图谱。本发明通过上述步骤实现对知识图谱的构建,由于新的知识图谱与背景知识图谱具有关联可用于对其进行更新。

    实体链接方法及装置
    18.
    发明公开

    公开(公告)号:CN112989808A

    公开(公告)日:2021-06-18

    申请号:CN202110326779.6

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明公开了一种实体链接方法及装置,所述实体链接方法包括:基于词典的方式进行实体发现,得到实体提及;基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式,在增加召回率的同时有效避免了中文分词对实体发现带来的影响,此外,本发明实施例基于词和实体联合表示的方式实现了实体链接,从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法,实现辅助阅读,以及可用协助进行文本预处理。

    实体链接方法及装置
    19.
    发明授权

    公开(公告)号:CN112989808B

    公开(公告)日:2025-01-03

    申请号:CN202110326779.6

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明公开了一种实体链接方法及装置,所述实体链接方法包括:基于词典的方式进行实体发现,得到实体提及;基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式,在增加召回率的同时有效避免了中文分词对实体发现带来的影响,此外,本发明实施例基于词和实体联合表示的方式实现了实体链接,从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法,实现辅助阅读,以及可用协助进行文本预处理。

    跨语言领域知识图谱构建方法及装置

    公开(公告)号:CN112487213B

    公开(公告)日:2024-12-03

    申请号:CN202011507796.1

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

Patent Agency Ranking