-
公开(公告)号:CN113553828B
公开(公告)日:2023-06-16
申请号:CN202110823952.3
申请日:2021-07-21
Applicant: 南京邮电大学
IPC: G06F40/205 , G06F40/30 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码;步骤3:位置向量编码;步骤4:PCNN特征提取;步骤5:层次级关系注意力机制;步骤6:构建超包级别训练实例;步骤7:训练调优,最终得到关系抽取模型。本发明利用关系之间的联系来丰富训练数据,通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,再从关系层次上构建超包,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能,有效减少对数据的依赖,降低数据质量对最终结果的波动影响,从而提高关系抽取的准确率。
-
公开(公告)号:CN115577267A
公开(公告)日:2023-01-06
申请号:CN202211106635.0
申请日:2022-09-07
Applicant: 南京邮电大学
Abstract: 本发明提供一种基于BERT的实体属性相似度计算方法及系统,该方法通过对两个知识图谱进行预处理,过滤掉知识图谱中的关系三元组、冗余或无效的三元组,获得预对齐实体对;对齐第一知识图谱和第二知识图谱的关系;使用BERT模型对属性三元组中的尾实体即属性文本进行无监督学习,获得训练好的BERT模型;根据关系对齐的结果,通过训练好的BERT模型,计算有相同关系的属性文本相似度,通过计算整合,获得各实体属性相似度的结果;本发明能够在知识图谱数据量巨大且缺少标注的情况下,通过无监督的算法,高准确率地实现对知识图谱间实体属性相似度的计算,为知识图谱的融合提供支持,可有效解决知识图谱融合过程中标注样本的人工成本过高且准确率较低的问题。
-
公开(公告)号:CN113553828A
公开(公告)日:2021-10-26
申请号:CN202110823952.3
申请日:2021-07-21
Applicant: 南京邮电大学
IPC: G06F40/205 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码;步骤3:位置向量编码;步骤4:PCNN特征提取;步骤5:层次级关系注意力机制;步骤6:构建超包级别训练实例;步骤7:训练调优,最终得到关系抽取模型。本发明利用关系之间的联系来丰富训练数据,通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,再从关系层次上构建超包,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能,有效减少对数据的依赖,降低数据质量对最终结果的波动影响,从而提高关系抽取的准确率。
-
-