-
公开(公告)号:CN113553828A
公开(公告)日:2021-10-26
申请号:CN202110823952.3
申请日:2021-07-21
Applicant: 南京邮电大学
IPC: G06F40/205 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码;步骤3:位置向量编码;步骤4:PCNN特征提取;步骤5:层次级关系注意力机制;步骤6:构建超包级别训练实例;步骤7:训练调优,最终得到关系抽取模型。本发明利用关系之间的联系来丰富训练数据,通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,再从关系层次上构建超包,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能,有效减少对数据的依赖,降低数据质量对最终结果的波动影响,从而提高关系抽取的准确率。
-
公开(公告)号:CN112817982A
公开(公告)日:2021-05-18
申请号:CN202110182544.4
申请日:2021-02-08
Applicant: 南京邮电大学
IPC: G06F16/22
Abstract: 本发明公开了一种基于LSM树的动态幂律图存储方法,包括:图数据动态更新时,统计图的顶点出度信息,以内存顶点表的形式对大度数顶点和普通顶点进行分离存储;对大顶点表和普通顶点表,根据幂律分布比例分配内存;当各顶点表的数据量超过阈值时,根据内存分配比例对应的线程数对图数据进行并发溢写。本发明能减轻基于幂律分布的图数据更新频繁时产生的数据合并开销和存储资源浪费等问题,在知识图谱和图计算领域具有良好的实用价值和前景。
-
公开(公告)号:CN113553828B
公开(公告)日:2023-06-16
申请号:CN202110823952.3
申请日:2021-07-21
Applicant: 南京邮电大学
IPC: G06F40/205 , G06F40/30 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于义原编码的层次级远程监督关系抽取方法,包括如下步骤:步骤1:将训练数据集中的所有句子,将包含相同实体对的句子分配到同一包中;步骤2:词向量编码;步骤3:位置向量编码;步骤4:PCNN特征提取;步骤5:层次级关系注意力机制;步骤6:构建超包级别训练实例;步骤7:训练调优,最终得到关系抽取模型。本发明利用关系之间的联系来丰富训练数据,通过顶层关系的粗粒度特征弥补训练数据不足的长尾部分,再从关系层次上构建超包,降低学到错误关系特征的影响并近似忽略整个句子包都是错误实例的可能,有效减少对数据的依赖,降低数据质量对最终结果的波动影响,从而提高关系抽取的准确率。
-
公开(公告)号:CN112817982B
公开(公告)日:2022-09-30
申请号:CN202110182544.4
申请日:2021-02-08
Applicant: 南京邮电大学
IPC: G06F16/22
Abstract: 本发明公开了一种基于LSM树的动态幂律图存储方法,包括:图数据动态更新时,统计图的顶点出度信息,以内存顶点表的形式对大度数顶点和普通顶点进行分离存储;对大顶点表和普通顶点表,根据幂律分布比例分配内存;当各顶点表的数据量超过阈值时,根据内存分配比例对应的线程数对图数据进行并发溢写。本发明能减轻基于幂律分布的图数据更新频繁时产生的数据合并开销和存储资源浪费等问题,在知识图谱和图计算领域具有良好的实用价值和前景。
-
-
-