用于命名实体识别的模型训练方法、识别方法及装置

    公开(公告)号:CN113298253A

    公开(公告)日:2021-08-24

    申请号:CN202110621275.7

    申请日:2021-06-03

    Applicant: 清华大学

    Abstract: 本发明提供一种用于命名实体识别的模型训练方法、识别方法及装置,该模型训练方法包括:将预定义类数据输入到由编码模块和分类模块构建的第一原型网络,得到学习后的编码模块;将预定义类数据分别输入到学习前后的编码模块,结果分别输入到组分类器进行训练;将其他类数据分别输入到学习前后的编码模块,结果分别输入到训练后的组分类器,得到其他类数据的分组结果;将预定义类数据和其他类数据输入到第二原型网络,对第二原型网络进行训练。本发明提供的用于命名实体识别的模型训练方法、识别方法及装置,通过利用预定义类的弱监督信号,能够有效地从其他类中挖掘更多的未定义类,从而利用其他类中丰富的语义信息,增强小样本命名实体识别能力。

    视觉推理方法和装置
    132.
    发明公开

    公开(公告)号:CN113282720A

    公开(公告)日:2021-08-20

    申请号:CN202010126091.9

    申请日:2020-02-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种视觉推理方法和装置,所述视觉推理方法包括:将待推理的图像解析为场景图;获取寻点模块、寻边模块、转移模块和逻辑模块;基于待解答的问题,确定与问题对应的模块序列,模块序列包括寻点模块、寻边模块、转移模块和逻辑模块中的至少部分的排列;将场景图按模块序列执行,确定推理结果。本发明的视觉推理方法,基于场景图来进行推理,且针对场景图的结构,设计了四种简单、高效、通用的元推理模块,可以大大减少参数量,并且可以通过组装这些元模块来得到功能更为复杂的模块,使得该推理方法的通用性强。

    单篇文档分析方法和装置
    133.
    发明公开

    公开(公告)号:CN113158673A

    公开(公告)日:2021-07-23

    申请号:CN202110326886.9

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明提供一种单篇文档分析方法和装置,包括:对文档进行分类;对文档进行实体链接,得到实体链接结果;对文档进行分句、分词处理和词性标注处理,对处理结果分别进行关键词抽取、命名实体识别和实体开放关系抽取,得到关键词抽取结果、命名实体识别结果和开放关系抽取结果;将实体链接结果、关键词抽取结果和命名实体识别结果进行处理,得到实体合并结果;基于实体链接结果进行关系扩展,得到关系扩展结果;根据分句得到的句子和实体合并结果进行共现关系计算,得到共现关系确定结果;基于关系扩展结果、开放关系抽取结果和共现关系确定结果得到文档的分析结果。本发明能够帮助用户对文档进行快速查阅和分析,得到准确全面的分析结果。

    文本数据分析方法、装置、电子设备及存储介质

    公开(公告)号:CN113094469A

    公开(公告)日:2021-07-09

    申请号:CN202110363310.X

    申请日:2021-04-02

    Applicant: 清华大学

    Abstract: 本发明提供一种文本数据分析方法、装置、电子设备及存储介质,该方法包括:确定目标文本和目标文本中的目标实体,根据目标实体确定关联文本;根据目标文本确定三元组,以及在目标文本中对应于三元组的段落;根据目标文本和关联文本确定对应于目标实体的词云和开放关系;根据三元组、对应于三元组的段落、词云和开放关系确定分析结果。本发明提供的文本数据分析方法、装置、电子设备及存储介质,通过对文本进行分析,得到与目标实体相关联的三元组、段落、词云和开放关系,实现对文本数据的多层次挖掘,构建文本分级知识展示形态,方便对文本的重点了解。

    基于百科的跨语言知识图谱构建方法及装置

    公开(公告)号:CN112541087A

    公开(公告)日:2021-03-23

    申请号:CN202011507799.5

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种基于百科的跨语言知识图谱构建方法及装置,所述方法包括:获取目标领域的原始百科数据,原始百科数据包括至少两种语言、至少两处来源的所述目标领域的原始数据;对原始百科数据进行预处理,获得经过预处理后的目标数据;基于经过预处理后的目标数据,执行知识建模操作,获得概念数据、不同概念之间的上下位关系和概念属性数据;基于经过预处理后的目标数据,执行知识获取操作,获得实例数据、实例与概念之间的关系以及实例属性数据;执行知识融合操作,生成所述目标领域的知识图谱。本发明实现了基于百科的跨语言领域知识图谱的构建,数据来源具有多样性,可有效提升知识图谱的构建效率。

    开放式信息抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN112527981A

    公开(公告)日:2021-03-19

    申请号:CN202011312007.9

    申请日:2020-11-20

    Applicant: 清华大学

    Abstract: 本发明提供一种开放式信息抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的知识图谱,获取目标技术领域的文档集中每一待提取文档中的候选三元组;根据各待提取文档中的候选三元组,建立图表示模型,根据图表示模型,获取每一待提取文档中每一候选三元组的重要性分值;对于每一待提取文档,根据每一待提取文档中各候选三元组的重要性分值,获取抽取结果。本发明提供的开放式信息抽取方法、装置、电子设备及存储介质,根据从目标技术领域的文档集中提取出的各候选三元组,建立图表示模型,根据图表示模型,获取候选三元组的重要性分值,对待提取文档中的候选三元组进行筛选,获取抽取结果,能提高开放式信息抽取的准确率。

    跨语言领域知识图谱构建方法及装置

    公开(公告)号:CN112487213A

    公开(公告)日:2021-03-12

    申请号:CN202011507796.1

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

    基于多语言的阅读理解任务识别方法及装置

    公开(公告)号:CN112182151A

    公开(公告)日:2021-01-05

    申请号:CN202011012758.9

    申请日:2020-09-23

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于多语言的阅读理解任务识别方法及装置,该方法包括:获取任一目标语言的阅读理解任务数据,编码得到上下文嵌入表达向量;将所述嵌入表达向量,输入预设的多语言阅读理解模型,根据多语言阅读理解模型的输出结果,确定阅读理解任务的答案;其中,所述多语言阅读理解模型,以源语言任务数据分别和每一目标语言任务数据的关联语义信息矩阵,进行融合后得到的特征向量作为输入,以源语言任务数据的答案作为标签,进行训练后得到。该方法能够同时支持迁移多语言和多任务数据集中的知识到目标语言中,实现目标语言无数据、少数据条件下的抽取式阅读理解任务,可以提高目标语言少数据以及富数据的抽取式阅读理解任务的准确度。

    一种专利空白预测方法及系统

    公开(公告)号:CN112100398A

    公开(公告)日:2020-12-18

    申请号:CN202010931215.0

    申请日:2020-09-07

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种专利空白预测方法及系统,包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。本发明实施例提供的专利空白预测方法及系统,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。

Patent Agency Ranking