基于多角度自注意力机制的图像-文本检索系统及方法

    公开(公告)号:CN109992686A

    公开(公告)日:2019-07-09

    申请号:CN201910134902.7

    申请日:2019-02-24

    Applicant: 复旦大学

    Abstract: 本发明属于跨模态检索技术领域,具体为基于多角度自注意力机制的图像‑文本检索系统及方法。系统包括:深度卷积网络,双向循环神经网络,图像、文本自注意力网络,多模态空间映射网络,以及多阶段训练模块;深度卷积网络用于获取图像区域特征在图像嵌入空间的嵌入向量,双向循环神经网络用于获取单词特征在文本空间的嵌入向量,两者分别输入至图像、文本自注意力网络;图像、文本自注意力网络用于获取图像关键区域的嵌入表示和句子中关键单词的嵌入表示;多模态空间映射网络用于获取图像文本在多模态空间的嵌入表示;多阶段训练模块用于学习网络中的参数。本发明在公共数据集Flickr30k和MSCOCO上取得良好结果,性能有很大提升。

    基于深度学习的跨模态主题相关性建模方法

    公开(公告)号:CN105760507B

    公开(公告)日:2019-05-03

    申请号:CN201610099438.9

    申请日:2016-02-23

    Applicant: 复旦大学

    Abstract: 本发明属于跨媒体相关性学习技术领域,具体为基于深度学习的跨模态主题相关性建模方法。本发明包括两个主要算法:基于深度词汇的多模态文档表示,融合跨模态主题相关性学习的关系主题模型建模。本发明利用深度学习技术来构造深度语义词汇和深度视觉词汇来分别描述多模态文档中的语义描述部分和图像部分。基于这样的多模态文档表示,通过构建跨模态关系主题模型来对整个多模态文档集合进行建模,从而对多模态文档的生成过程和不同模态之间的关联进行描述。本方法准确性高,适应性强。这对于在大规模多模态文档(文本加图像)基础上,考虑多模态语义信息而进行高效跨媒体信息检索具有重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。

    基于迭代学习的图像描述重生成系统及方法

    公开(公告)号:CN109447242A

    公开(公告)日:2019-03-08

    申请号:CN201811176057.1

    申请日:2018-10-10

    Applicant: 复旦大学

    Abstract: 本发明为基于迭代学习的图像描述重生成系统及方法,包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图,利用显著性区域检测算法来生成显著性区域掩码。此外,知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练,即基于显著性区域掩码的全局图像视觉表示精炼,基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制,第二轮循环神经网络可生成精炼的图像描述。

    一种基于深度学习的视频近似拷贝检索算法

    公开(公告)号:CN108763295A

    公开(公告)日:2018-11-06

    申请号:CN201810347069.X

    申请日:2018-04-18

    Applicant: 复旦大学

    Abstract: 本发明属于图像与视频处理技术领域,具体为一种基于深度学习的视频近似拷贝检索算法。本发明算法分为两个阶段:离线构建索引阶段和在线检索阶段。在离线构建索引阶段,使用深度卷积神经网络提取采样帧的特征值,然后采用k‑d树为视频库内的所有视频采样帧集建立索引;在在线检索阶段,采用同样的方法提取查询视频的采样帧的特征值,并用近似最近邻搜索的方法在索引库中找出与其相似的候选视频,最后计算出所有候选视频与查询视频的相似度,并将相似度由高到低排序后给出近似拷贝检索的结果。本发明可大幅加速整个检索过程,同时可得到候选视频与查询视频的相似可能性以供后续步骤使用,进一步提高了检索速度。

    基于深度学习的手绘草图图像检索方法

    公开(公告)号:CN106126581A

    公开(公告)日:2016-11-16

    申请号:CN201610442187.X

    申请日:2016-06-20

    Applicant: 复旦大学

    CPC classification number: G06F16/583 G06K9/6223

    Abstract: 本发明属于多媒体信息检索技术领域,具体为基于深度学习的手绘草图图像检索方法。本发明利用边缘轮廓检测技术和非极大值抑制技术实现彩色图像到类草图图像的转换,然后利用深度学习技术来构造查询草图和类草图的深度特征区分性特征表示,这种深度特征融合了图像的高层语义特征和底层视觉特征;这种深度特征在草图检索中表现得更有区分性。通过深度挖掘初次检索结果的视觉信息,抑制检索结果排序靠前的不相关图像,返回更相关的结果给用户。本方法准确性高,适应性强。对于在大规模图像数据基础上,考虑草图的语义信息而进行高效的图像检索具有重要意义,能够减小手绘草图的模糊性的影响,提高检索相关性,增强用户体验,在多媒体图像检索领域具有广泛的应用价值。

    融合多模态信息的跨媒体人物新闻检索方法与系统

    公开(公告)号:CN103425757A

    公开(公告)日:2013-12-04

    申请号:CN201310330576.X

    申请日:2013-07-31

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息检索与新闻检索技术领域,具体为一种融合多模态信息的跨媒体人物新闻检索方法与系统。本发明的检索方法包括:获取网络多模态新闻数据,提取新闻人物人名获得新闻文本特征,提取新闻人物人脸图像获得新闻图像特征;对罕见新闻人物进行网络信息补充;新闻人物人名-人脸对齐聚类学习;实现人物人脸与人物人名检索。本发明的检索系统包括相应于检索方法各步骤的6个模块。本发明能够很好解决网络新闻人名-人脸对齐问题,并在此基础上解决人物新闻检索问题。这两个问题在多媒体信息检索与新闻检索领域具有重要意义,本发明具有广泛的应用价值。

    基于时序特征聚合的高效视频时序定位系统

    公开(公告)号:CN119478757A

    公开(公告)日:2025-02-18

    申请号:CN202411329756.0

    申请日:2024-09-24

    Applicant: 复旦大学

    Inventor: 张玥杰 陈默涵

    Abstract: 本发明属于视频处理技术领域,具体为基于时序特征融合的高效视频时序定位系统。本发明包括:多模态特征提取器,由视频特征提取器和文本特征提取器构成,用于提取输入视频和文本的特征,可降低计算量;时序特征聚合模块,在文本查询的指导下,通过不同的卷积核在多个不同时间尺度上提取视频中时序关系信息进行,得到时序增强的视频特征,以改善视频2D特征中时序信息缺失的问题;多模态编码器,通过使用交叉注意力机制,在节省计算量的情况下将文本和视频两个模态的特征进行融合;预测解码器,用来完成最终视频时序定位结果的预测;本发明可降低计算开销,实现更好的准确性和效率的平衡;在有关公共数据集上取得领先的视频时序定位效果。

    基于记忆增强Transformer的端到端视频时序定位系统

    公开(公告)号:CN119383350A

    公开(公告)日:2025-01-28

    申请号:CN202411329411.5

    申请日:2024-09-24

    Applicant: 复旦大学

    Abstract: 本发明属于视频处理技术领域,具体为基于记忆增强Transformer的端到端视频时序定位系统。本发明包括:视频和文本特征编码模块,由视频特征编码模块和文本特征编码模块构成,分别用于提取输入视频和文本的特征;记忆增强的Transformer,在现有Transformer编码器中引入记忆机制,对视频的特征编码进行增强,并用于视频时序定位;多粒度预测模块,是在前景背景、目标时刻区间和视频片段三个级别上对最终的视频时序定位结果进行多粒度预测。本发明以逐片段分析的方式去处理视频,并在内存中缓存时间上下文信息,可降低整体计算开销,提高视频时序定位的准确性;在公共数据集上取得领先的视频时序定位效果。

    面向医学图像序列的语义分割系统

    公开(公告)号:CN115861616A

    公开(公告)日:2023-03-28

    申请号:CN202211584167.8

    申请日:2022-12-09

    Applicant: 复旦大学

    Abstract: 本发明属于医学图像处理技术领域,具体为面向医学图像序列的语义分割系统。本发明的语义分割系统包括一个跨帧注意力模块和边界感知Transformer;采用先定位再细化的模式,即首先通过跨帧注意力模块,挖掘输入图像的连续帧之间的时序关系,建模帧间的相关性,并进行图像的粗糙分割,通过关注目标区域来定位;然后采用边界感知Transformer对目标物体进一步细化,来提升分割精度;通过学习沿边界提取的图像块之间的依赖关系,经过处理,将这些图像块将重新组合,获得最终分割掩码。本发明在心脏分割磁共振图像数据集和息肉分割内窥镜数据集上都取得优越的分割性能,还可广泛扩展到其它模态的医学图像,如CT扫描图像、超声图像等。

Patent Agency Ranking