-
公开(公告)号:CN109992686A
公开(公告)日:2019-07-09
申请号:CN201910134902.7
申请日:2019-02-24
Applicant: 复旦大学
IPC: G06F16/53 , G06F16/535 , G06F16/33 , G06N3/04
Abstract: 本发明属于跨模态检索技术领域,具体为基于多角度自注意力机制的图像‑文本检索系统及方法。系统包括:深度卷积网络,双向循环神经网络,图像、文本自注意力网络,多模态空间映射网络,以及多阶段训练模块;深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量,双向循环神经网络用于获取单词特征在文本空间的嵌入向量,两者分别输入至图像、文本自注意力网络;图像、文本自注意力网络用于获取图像关键区域的嵌入表示和句子中关键单词的嵌入表示;多模态空间映射网络用于获取图像文本在多模态空间的嵌入表示;多阶段训练模块用于学习网络中的参数。本发明在公共数据集Flickr30k和MSCOCO上取得良好结果,性能有很大提升。