-
公开(公告)号:CN115114930A
公开(公告)日:2022-09-27
申请号:CN202210554500.4
申请日:2022-05-19
Applicant: 北京理工大学 , 中国科学院信息工程研究所
Abstract: 本发明提出了一种基于序列到森林的非连续实体识别方法,为了更好地刻画实体内部组块之间的依赖性,使用森林结构建模文本中实体集;采用基于神经网络的“编码器‑解码器”生成框架,实现序列到森林的生成过程;在编码器端,首先采用基于Transformer的编码器捕获文本中每个词的全局依赖特征,然后再使用卷积神经网络进一步捕获词的局部依赖特征;在解码器端,设计了基于“便签”机制的注意力模块,可捕获每个解码时刻的输出与输入之间的语义关联性。本发明的有益效果是:可保证实体间的无序性以及实体内部的有效性,可有效捕获实体组块之间的关联性,可有效提高模型对非连续实体的识别能力,可适应于连续实体识别的场景。
-
公开(公告)号:CN117994791A
公开(公告)日:2024-05-07
申请号:CN202311777086.4
申请日:2023-12-22
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种文本引导的多模态关系抽取方法及装置,所述方法包括:针对给定的图像,获得全局图像中的多个局部对象图像;获得给定文本的文本特征编码表示和该图像及局部对象图像的视觉特征编码表示;将文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示;通过交叉注意力机制将文本特征编码表示和该与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示;基于跨模态文本特征编码表示进行关系分类,得到给定文本中两个实体之间的语义关系类型。本发明可以降低不相关视觉信息的干扰,提高关系抽取的准确率。
-
公开(公告)号:CN115965795A
公开(公告)日:2023-04-14
申请号:CN202211626368.X
申请日:2022-12-16
Applicant: 中国科学院信息工程研究所
IPC: G06V10/44 , G06V10/762 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于网络表示学习的深暗网群体发现方法,包括深暗网异质信息网络构建和基于自编码器的多视图深度嵌入式聚类;所述深暗网异质信息网络构建包含构建属性异质信息网络多种类型的节点和构建属性异质信息网络的多种类型的关系;所述基于自编码器的多视图深度嵌入式聚类,包含基于元路径的用户多视图构建、基于自编码器的用户嵌入表示学习和基于KL散度的自监督聚类;最终联合学习所述基于自编码器的用户嵌入表示学习和所述基于KL散度的自监督聚类,联合优化重建损失与聚类损失。对于一目标深暗网,利用优化后的编码器、基于KL散度的自监督聚类模块,得到目标深暗网每一用户的软标签分布。本发明可获得较好的群体发现结果。
-
-