-
公开(公告)号:CN118966203B
公开(公告)日:2025-02-11
申请号:CN202411456385.2
申请日:2024-10-18
Applicant: 之江实验室
IPC: G06F40/279 , G06F40/216 , G06N5/022
Abstract: 本发明公开了一种大模型增强的半开放知识抽取方法和系统,能够精准地筛选高质量且与关注问题相关的语料,并实现高效且准确的知识抽取。包括:首先,基于给定的种子实体检索包含这些种子实体的相关语料;接着,基于知识抽取的目的和关注的问题,计算检索到的语料和关注点之间的关联程度,筛选出关联度高的语料作为知识抽取的源语料;随后,利用大模型从源语料中抽取将种子实体作为头实体的三元组;再利用大模型判断抽取出来的三元组的置信度,筛选出置信度超过阈值的三元组;进一步检查所得三元组的语法、词性等,筛选出符合规范的三元组;最后,通过实体、关系标准化对齐、同义词提取融合等技术,实现知识的去重和规范化,得到最终需要的三元组。
-
公开(公告)号:CN118966203A
公开(公告)日:2024-11-15
申请号:CN202411456385.2
申请日:2024-10-18
Applicant: 之江实验室
IPC: G06F40/279 , G06F40/216 , G06N5/022
Abstract: 本发明公开了一种大模型增强的半开放知识抽取方法和系统,能够精准地筛选高质量且与关注问题相关的语料,并实现高效且准确的知识抽取。包括:首先,基于给定的种子实体检索包含这些种子实体的相关语料;接着,基于知识抽取的目的和关注的问题,计算检索到的语料和关注点之间的关联程度,筛选出关联度高的语料作为知识抽取的源语料;随后,利用大模型从源语料中抽取将种子实体作为头实体的三元组;再利用大模型判断抽取出来的三元组的置信度,筛选出置信度超过阈值的三元组;进一步检查所得三元组的语法、词性等,筛选出符合规范的三元组;最后,通过实体、关系标准化对齐、同义词提取融合等技术,实现知识的去重和规范化,得到最终需要的三元组。
-