基于深度学习的跨模态主题相关性建模方法

    公开(公告)号:CN105760507A

    公开(公告)日:2016-07-13

    申请号:CN201610099438.9

    申请日:2016-02-23

    Applicant: 复旦大学

    CPC classification number: G06F17/30014 G06F17/3071 G06K9/6223

    Abstract: 本发明属于跨媒体相关性学习技术领域,具体为基于深度学习的跨模态主题相关性建模方法。本发明包括两个主要算法:基于深度词汇的多模态文档表示,融合跨模态主题相关性学习的关系主题模型建模。本发明利用深度学习技术来构造深度语义词汇和深度视觉词汇来分别描述多模态文档中的语义描述部分和图像部分。基于这样的多模态文档表示,通过构建跨模态关系主题模型来对整个多模态文档集合进行建模,从而对多模态文档的生成过程和不同模态之间的关联进行描述。本方法准确性高,适应性强。这对于在大规模多模态文档(文本加图像)基础上,考虑多模态语义信息而进行高效跨媒体信息检索具有重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。

    面向社会图像的跨模态图像-标签相关度学习方法

    公开(公告)号:CN104899253A

    公开(公告)日:2015-09-09

    申请号:CN201510243776.0

    申请日:2015-05-13

    Applicant: 复旦大学

    CPC classification number: G06F17/30265

    Abstract: 本发明属于跨媒体相关性学习技术领域,具体为面向社会图像的跨模态图像-标签相关度学习方法。本发明包括三个主要算法:多模态特征融合、双向相关度度量、跨模态相关度融合;本发明以超图为基本模型对整个社会图像数据集来进行描述,并分别将图像和标签映射为超图节点来进行处理,得到针对图像的相关度和针对标签的相关度,进而通过跨模态融合方法来将两种不同的相关度进行融合得到一种更好的相关度。较之于传统方法,本方法准确性高,适应性强。这对于在大规模弱标注的社会图像基础上,考虑多模态语义信息而进行高效社会图像检索具有重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。

    一种面向互动电视的手势交互方法和系统

    公开(公告)号:CN103914149A

    公开(公告)日:2014-07-09

    申请号:CN201410128223.6

    申请日:2014-04-01

    Applicant: 复旦大学

    Abstract: 本发明属于人机交互技术领域,具体为一种面向互动电视的手势交互方法和系统。本发明采用简单高效的时域特征提取方法,对加速度信号进行平稳降噪、去冗余和归一化处理,并用SVM进行分类和识别。手势识别结果应用于基于Android平台的机顶盒原型系统,实现用户与电视的实时交互。实验结果表明本发明实现了电视常用手势的准确识别,识别率达到了96%,手势动作的识别时间介于48~63ms。

    面向跨媒体新闻检索的人脸-人名对齐方法及系统

    公开(公告)号:CN102629275A

    公开(公告)日:2012-08-08

    申请号:CN201210076089.0

    申请日:2012-03-21

    Applicant: 复旦大学

    Abstract: 本发明属于跨媒体信息检索技术领域,具体为跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法与系统。本发明包括四个主要算法:人名重要性评估算法、基于Web挖掘的多模态信息发现算法、人脸集内聚度度量算法和多模态对齐组合优化算法。本发明使用相关的图像特征和文本语义处理方法,同时建立相关数学模型,对新闻图像搜索进行优化,包括通过多级别深层次的文本语义分析,有效的人脸-人名对齐评估机制,具有问题针对性的组合优化。本发明对于在大规模且多样性新闻图像基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。

    解剖学区域引导的医学视觉-语言预训练系统

    公开(公告)号:CN119227831A

    公开(公告)日:2024-12-31

    申请号:CN202411111998.2

    申请日:2024-08-14

    Applicant: 复旦大学

    Abstract: 本发明属于医学影像处理技术领域,具体为解剖学区域引导的医学视觉‑语言预训练系统。本发明系统包括:解剖学区域与报告分句对齐模块、内部表征学习强化模块、外部表征学习强化模块;对齐模块由目标检测器、文本解析器以及二者间的自动化对齐范式构成,通过对比学习赋予模型细粒度对齐能力;内部表征学习强化模块利用图像编码器和图像标签识别解码器,将图像特征与其对应标签相关联,并提供开放疾病类别检测的功能;外部表征学习强化模块利用软标签和硬标签的对比学习,提升不同图像‑报告对之间的关联性。本发明以解剖学区域为中心,同时强化图像‑报告对内部与外部的细粒度语义关联,可显著提升基于当前预训练系统的下游任务准确率。

    基于检索增强的第一视角视频描述系统

    公开(公告)号:CN119226567A

    公开(公告)日:2024-12-31

    申请号:CN202411111999.7

    申请日:2024-08-14

    Applicant: 复旦大学

    Inventor: 张玥杰 徐际岚

    Abstract: 本发明属于视频处理技术领域,具体为基于检索增强的第一视角视频描述系统。本发明包括:跨视角检索模块、视频编码器、跨模态文本解码器;跨视角检索模块通过构建的第一视角与第三视角视频配对数据,对齐第一视角与第三视角的视觉与文本特征,实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取,通过特征压缩采样器将视频特征降维;跨模态文本解码器采用大语言模型结合跨模态注意力层,将输入文本不断聚焦视觉模态信息实现跨模态信息交互,输出第一视角视频描述。本发明利用第三视角的视频与文本信息,在仅使用极少量第三视角数据作为辅助,可显著提升第一视角视频描述准确率。

    基于图卷积网络的视频描述生成系统

    公开(公告)号:CN111488807B

    公开(公告)日:2023-10-10

    申请号:CN202010233049.7

    申请日:2020-03-29

    Applicant: 复旦大学

    Inventor: 张玥杰 肖鑫龙

    Abstract: 本发明属于跨媒体生成技术领域,具体为基于图卷积网络的视频描述生成系统。本发明的视频描述生成系统包括:视频特征提取网络、图卷积网络、视觉注意力网络、句子描述生成网络;视频特征提取网络对视频进行采样处理,获取视频特征,输出至图卷积网络;图卷积网络对视频特征根据语义关系进行重构,并输入至句子描述生成循环神经网络;句子描述生成网络根据视频重构的特征进行句子生成。本发明采用图卷积对视频中帧级序列和目标级序列特征进行重构,在生成描述语句时充分利用视频内的时序信息和语义信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。

    基于感知语法知识的视频描述生成方法

    公开(公告)号:CN115410120A

    公开(公告)日:2022-11-29

    申请号:CN202210970842.4

    申请日:2022-08-13

    Applicant: 复旦大学

    Abstract: 本发明属于计算机视觉技术领域,具体为一种基于感知语法知识的树结构视频描述生成方法。本发明显式利用语言中存在的语义信息,使用依存结构分析工具将顺序结构的句子转换成语法树的结构,通过树之间父结点和子结点之间的连接关系,对句子当中的依存语法结构进行显式建模;通过感知上下文的注意力网络,对生成过程中所产生的不同路径上下文信息分别进行建模;同时,在训练阶段引入强化学习和迭代式生成的训练方式,进一步提高模型性能;本发明通过定性和定量实验,表明模型具有可生成更加准确、语义更加丰富描述的能力。

    基于关系感知的视频描述生成系统

    公开(公告)号:CN115311598A

    公开(公告)日:2022-11-08

    申请号:CN202210911326.4

    申请日:2022-07-29

    Applicant: 复旦大学

    Abstract: 本发明属于跨媒体生成技术领域,具体为基于关系感知的视频描述生成系统。本发明系统包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络。视频特征提取网络对视频进行帧采样,获取帧级别视觉语义特征与目标对象序列特征及相关信息;关系感知视觉特征编码网络对帧级别视觉语义进行融合,对视频中目标对象序列特征根据关系信息进行重构编码;语言解码网络采用注意力机制融合特征信息,生成最终的描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息,利用图卷积对视频中对象级序列特征进行重构,在生成描述语句时充分利用视频内对象间的空间语义与时序关系信息,使生成更精确,并提高模型对视频视觉信息的理解能力。

    基于自我修正式标签生成网络的胸片多标签分类方法

    公开(公告)号:CN111275118B

    公开(公告)日:2022-09-16

    申请号:CN202010072862.0

    申请日:2020-01-22

    Applicant: 复旦大学

    Inventor: 张玥杰 胡玥琳

    Abstract: 本发明属于医学图像处理领域,具体为基于自我修正式标签生成网络的胸片多标签分类方法。本发明通过构建自我修正式标签生成网络模型,用于胸片的多标签分类;该网络包括:ResNet图像编码器、自我修正式注意力机制模块以及GRU解码器;图像编码器用于获取输入图像即胸片图像的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中;自我修正式注意力机制模块在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向解码器输出上下文特征向量;解码器根据上下文特征向量和之前时刻生成的标签词向量,生成当前时刻图像所对应的标签。本发明有效解决了胸片多标签分类中的预测效果不平衡问题。

Patent Agency Ranking