一种实体记录匹配方法及系统

    公开(公告)号:CN114781471B

    公开(公告)日:2022-12-27

    申请号:CN202110614418.1

    申请日:2021-06-02

    Applicant: 清华大学

    Abstract: 本发明提供一种实体记录匹配方法及系统,该方法包括:获取待匹配的实体记录集合,所述实体记录集合中的实体记录是由实体的属性和属性值组成的;将所述实体记录集合输入到训练好的实体记录匹配模型,得到所述实体记录集合中实体记录之间的匹配结果,其中,所述训练好的实体记录匹配模型是由自监督学习方法训练后的神经网络和决策树算法训练后的决策树模型构建得到的。本发明通过神经网络对实体转换为属性值向量,利用自动构建的关键属性树,克服深度学习可解释性差的缺点,能将学习到的关键属性树转化成匹配规则,运用到其他数据集中;同时,本发明对应模型的训练仅需要少量的标记实体记录对,克服了现有方法需要大量标记实体记录对的缺点。

    开放式信息抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN112527981B

    公开(公告)日:2022-11-11

    申请号:CN202011312007.9

    申请日:2020-11-20

    Applicant: 清华大学

    Abstract: 本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立图表示模型,根据图表示模型,获取候选三元组的重要性分值,对待提取文档中的候选三元组进行筛选,获取抽取结果,能提高开放式信息抽取的准确率。

    事件演化关系分析方法及装置

    公开(公告)号:CN111444347B

    公开(公告)日:2022-11-11

    申请号:CN201910038942.1

    申请日:2019-01-16

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种事件演化关系分析方法及装置,所述方法包括:对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。本发明实施例提供的事件演化关系分析方法及装置,利用新闻事件的实体、关键词等事件要素对事件的演化关系进行分析,得到了事件之间的动态关系,解决了已有分析方法只描述事件内部的静态关系的问题,使用户能够迅速掌握事件全局信息以及演化的脉络,对事件的发展趋势的判断具有重要意义。

    知识图谱的构建方法和装置
    14.
    发明公开

    公开(公告)号:CN113268607A

    公开(公告)日:2021-08-17

    申请号:CN202110586751.6

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱构建方法和装置,其中,方法包括对原始数据进行实体链接、关键词抽取以及命名实体识别,获得相应的结果;对相应的结果进行实体合并,得到实体列表;将实体列表中的实体作为关键词对原始数据进行文本检索,得到包含实体的文本;对包含实体的所有文本进行处理,得到表示实体的第一实体相关信息;将实体列表中的实体作为关键词输入背景知识图谱中,得到实体在背景知识图谱中的第二实体相关信息;将实体列表、第一实体相关信息,实体在背景知识图谱中的第二实体相关信息进行融合,得到新的知识图谱。本发明通过上述步骤实现对知识图谱的构建,由于新的知识图谱与背景知识图谱具有关联可用于对其进行更新。

    实体链接方法及装置
    15.
    发明公开

    公开(公告)号:CN112989808A

    公开(公告)日:2021-06-18

    申请号:CN202110326779.6

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明公开了一种实体链接方法及装置,所述实体链接方法包括:基于词典的方式进行实体发现,得到实体提及;基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式,在增加召回率的同时有效避免了中文分词对实体发现带来的影响,此外,本发明实施例基于词和实体联合表示的方式实现了实体链接,从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法,实现辅助阅读,以及可用协助进行文本预处理。

    一种多模态事件检测方法及装置

    公开(公告)号:CN111259851B

    公开(公告)日:2021-04-23

    申请号:CN202010076960.1

    申请日:2020-01-23

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种多模态事件检测方法及装置。所述方法包括获取与待测句子匹配的待测图像集合;得到待测句子的初始的句子表达式,并得到各待测图像的图像表达式;采用交替对偶注意力机制,依次根据各图像表达式对句子表达式进行更新,得到更新后的句子表达式;采用残差融合器得到融合后的句子表达式;输入到事件预测模块得到对应的事件检测结果,本发明实施例通过获取待测句子的待测图像,分别编码得到句子表达式和图像表达式,依次根据各待测图像的图像表达式,采用交替对偶注意力机制,对句子表达式进行更新和残差融合,再将融合后的句子表达式通过事件预测模型,得到事件检测结果,从而提升了对于待测文本的事件检测的效率和质量。

    知识图谱多跳推理方法、装置、电子设备及存储介质

    公开(公告)号:CN112528033A

    公开(公告)日:2021-03-19

    申请号:CN202011242473.4

    申请日:2020-11-09

    Applicant: 清华大学

    Abstract: 本发明提供一种知识图谱多跳推理方法、装置、电子设备及存储介质,其中,该方法包括:若判断获知未达到预设的最大跳数,则根据当前访问实体对应的状态和目标知识图谱中当前访问实体的出边,获取当前访问实体对应的动作列表;根据当前访问实体对应的状态和当前访问实体对应的动作列表,获取当前访问实体对应的动作列表中的一个动作中的实体,作为下一访问实体。本发明提供的知识图谱多跳推理方法、装置、电子设备及存储介质,根据当前访问实体对应的状态和当前访问实体的出边,对当前访问实体对应的状态对应的动作列表进行补充,将未知实体的初步预测结果补充到当前访问实体对应的状态中,能实现对稀疏的连通性较差的知识图谱更高准确性的补全。

    新闻事件内实体关系抽取方法及装置

    公开(公告)号:CN111444713A

    公开(公告)日:2020-07-24

    申请号:CN201910038950.6

    申请日:2019-01-16

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种新闻事件内实体关系抽取方法及装置,所述方法包括:提取目标新闻事件中与实体相关的语句,并确定目标实体对,提取所述目标实体对出现语句,生成实体对语句集合;分析实体对语句集合中各语句的语义特征,提取用以表示目标实体对关系的多个关键词;根据多个关键词在实体对语句集合中的TF-IDF值进行排序,选取前N个关键词作为表征目标实体对关系的关系词。本发明不需要预先定义实体关系类型以及进行大规模的人工标注数据,具有良好的扩展性,并且对中文新闻句子结构进行了深入分析,能够适应新闻文档涉及领域多和句式复杂的问题,在中文新闻事件上进行实体关系抽取取得了较好的效果。

    事件演化关系分析方法及装置

    公开(公告)号:CN111444347A

    公开(公告)日:2020-07-24

    申请号:CN201910038942.1

    申请日:2019-01-16

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种事件演化关系分析方法及装置,所述方法包括:对输入的两个事件分别进行事件要素的抽取,生成所述两个事件各自的事件要素集合;基于所述事件要素集合获取用于分析所述两个事件之间演化关系的演化特征,计算各个演化特征随时间变化的偏移程度,获得所述两个事件的演化关系分析结果。本发明实施例提供的事件演化关系分析方法及装置,利用新闻事件的实体、关键词等事件要素对事件的演化关系进行分析,得到了事件之间的动态关系,解决了已有分析方法只描述事件内部的静态关系的问题,使用户能够迅速掌握事件全局信息以及演化的脉络,对事件的发展趋势的判断具有重要意义。

    基于用户定制的本体匹配系统及方法

    公开(公告)号:CN102135905B

    公开(公告)日:2014-04-02

    申请号:CN201110064824.1

    申请日:2011-03-17

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于用户定制的本体匹配系统,涉及语义万维网技术领域,包括:本体模块,包括原子组件本体操作接口子模块和本体API子模块;原子组件模块,用于通过原子组件本体操作接口子模块调用本体API子模块的本体API实现原子组件;用户接口模块,用于接收用户上传的待匹配本体和自行实现的原子组件;匹配执行模块,用于根据待匹配本体生成匹配任务描述文件,并根据匹配任务描述文件选择原子组件或自行实现的原子组件来执行匹配任务,生成匹配结果。本发明使用户能够根据匹配本体的特征,对这些原子组件进行定制和组装来设计自己需要的本体匹配流程,生成合适的匹配任务并得到精确地匹配结果。

Patent Agency Ranking