-
公开(公告)号:CN119808921A
公开(公告)日:2025-04-11
申请号:CN202411936764.1
申请日:2024-12-26
Applicant: 中国科学院计算技术研究所
IPC: G06N5/022 , G06F18/20 , G06F18/213 , G06F18/25 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/0895
Abstract: 本发明提出一种基于本体增强和特征融合的知识图谱实体对齐方法和装置,包括:获取待实体对齐的多个知识图谱;通过本体增强编码器将知识知识图谱引入本体信息,得到增强图谱;结构编码器提取增强图谱的结构信息,得到知识图谱的结构特征;通过关系编码器提取知识图谱的关系信息,得到关系特征;通过属性编码器器提取知识图谱的属性信息,生成属性特征;通过实体名称编码器,将知识图谱的实体名称信息进行提取,生成实体名称特征;对上述特征向量和实体名称特征分别进行动态特征加权后,进行特征融合形成统一实体向量表示,通过自适应对比学习的方法对形成统一的实体向量进行实体对齐,得到多个知识图谱的实体对齐知识图谱,作为实体对齐结果。
-
公开(公告)号:CN119962515A
公开(公告)日:2025-05-09
申请号:CN202510034936.4
申请日:2025-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F40/205 , G06F40/279 , G06N3/096 , G06N3/0895 , G06N3/045 , G06N3/0475 , G06N5/04 , G06N5/025
Abstract: 本发明提出一种基于大模型知识蒸馏的文档级事件抽取方法,包括:构建训练文档的事件本体信息;基于事件本体信息和大语言模型,构建训练文档的包含上下文信息的事件抽取问题;获取与事件抽取问题匹配的强相关片段;以教师模型基于该强相关片段生成软标签,以软标签构建软标签数据集;构建问答模型,以软标签数据集训练问答模型;以完成训练的问答模型,对目标文档进行事件抽取操作。本发明还提出一种基于大模型知识蒸馏的文档级事件抽取装置。本发明提供一种文档级事件抽取的方法,利用预训练大模型的知识,将其在长文本和复杂事件处理方面的丰富信息迁移到较小的问答模型中,在较少标注数据的情况下,提高事件识别和论元提取的准确率。
-
公开(公告)号:CN119739795A
公开(公告)日:2025-04-01
申请号:CN202411799665.3
申请日:2024-12-09
Applicant: 中国科学院计算技术研究所
IPC: G06F16/28 , G06F16/22 , G06F40/284 , G06F40/30 , G06N3/045 , G06N3/0442 , G06F18/214 , G06F18/2431 , G06F18/2415
Abstract: 本发明提出一种基于BERT和TCSMN的表格分类方法和装置,包括:获取以序列表示的待分类表格;构建包括特征提取层、注意力层和归一化层的表格分类模型,其中该特征提取层结构为串联的BERT网络模型、TCSMN网络模型和MLP网络模型;利用该特征提取层,提取该待分类表格中单元格间的时序依赖,根据该时序依赖,利用该MLP网络模型,将所述待分类表格转换为该中间表格;利用该注意力层,分别获取该中间表格中每行和每列数据的语义结构信息;根据该语义结构信息和预设的多个表格类别,对该待分类表格进行分类,得到该待分类表格的表格类别。
-
公开(公告)号:CN119691090A
公开(公告)日:2025-03-25
申请号:CN202411849332.7
申请日:2024-12-16
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种实体关系抽取方法、装置、设备、介质及程序产品,该方法包括如下步骤:依据给定实体对或者给定关系通过大语言模型生成非结构化文本;将所述非结构化文本添加至实体关系联合抽取模型的初始训练集,得到目标训练集;利用所述目标训练集对所述实体关系联合抽取模型进行训练;对获取的目标文本进行编码处理,得到所述目标文本的特征向量;基于训练好的所述实体关系联合抽取模型,结合所述特征向量对所述目标文本进行实体关系抽取,得到所述目标文本的三元组。该方法提高了实体关系联合抽取模型的可泛化能力和鲁棒性,提高了文本的实体关系抽取的有效性。
-
-
-