-
公开(公告)号:CN117994791A
公开(公告)日:2024-05-07
申请号:CN202311777086.4
申请日:2023-12-22
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种文本引导的多模态关系抽取方法及装置,所述方法包括:针对给定的图像,获得全局图像中的多个局部对象图像;获得给定文本的文本特征编码表示和该图像及局部对象图像的视觉特征编码表示;将文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示;通过交叉注意力机制将文本特征编码表示和该与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示;基于跨模态文本特征编码表示进行关系分类,得到给定文本中两个实体之间的语义关系类型。本发明可以降低不相关视觉信息的干扰,提高关系抽取的准确率。