一种基于多尺度语义网络的视听视频解析装置及方法

    公开(公告)号:CN114519809A

    公开(公告)日:2022-05-20

    申请号:CN202210134629.X

    申请日:2022-02-14

    Applicant: 复旦大学

    Abstract: 本发明提供一种基于多尺度语义网络的视听视频解析方法及装置,用于对目标音视频中所有单模态和多模态事件进行识别和定位,其特征在于,通过对目标音视频进行了预处理得到的视觉特征和音频特征,然后由基于多尺度语义网络构建的视听视频解析模型对视觉特征和音频特征进行识别和定位从而生成目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻。其中,视听视频解析模型包含跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及基于注意力的多模态多实例学习池化模块,跨模态时序卷积注意力网络用于捕捉多尺度语义,自适应语义融合模块用于多尺度语义的融合,基于注意力的多模态多实例学习模块用于实现弱监督学习。

    一种基于视听觉多模态的视频音源分离方法

    公开(公告)号:CN114446317A

    公开(公告)日:2022-05-06

    申请号:CN202210093434.5

    申请日:2022-01-26

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于视听觉多模态的视频音源分离方法,具有这样的特征,包括以下步骤:步骤1,对视频的视觉信息和听觉信息进行特征提取,得到视觉标签和听觉特征;步骤2,将视觉标签和听觉特征放入多实例多标签网络,得到听觉特征与视觉标签的关联值;步骤3,将视频和关联值放入音源分离网络中,得到每一个对象的单独声音,其中,步骤2中,多实例多标签网络的训练包括以下步骤:步骤2‑1,构建初始多实例多标签网络;步骤2‑2,将一个视频中所得到的所有音频特征向量作为训练集放入多实例多标签网络中训练,得到每个音频特征向量和所有视觉对象的关联特征图。

    基于迭代学习的图像描述重生成系统及方法

    公开(公告)号:CN109447242B

    公开(公告)日:2021-08-20

    申请号:CN201811176057.1

    申请日:2018-10-10

    Applicant: 复旦大学

    Abstract: 本发明为基于迭代学习的图像描述重生成系统及方法,包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图,利用显著性区域检测算法来生成显著性区域掩码。此外,知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练,即基于显著性区域掩码的全局图像视觉表示精炼,基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制,第二轮循环神经网络可生成精炼的图像描述。

    基于形变表示学习的病理图像分析方法

    公开(公告)号:CN112614131A

    公开(公告)日:2021-04-06

    申请号:CN202110027548.5

    申请日:2021-01-10

    Applicant: 复旦大学

    Inventor: 张玥杰 徐际岚

    Abstract: 本发明属于医学图像处理技术领域,具体为一种基于形变表示学习的病理图像分析方法。本发明方法包括构建自监督形变表示学习模型,用于病理图像分析,再用于病理图像的分类和分割;学习模型包括:形变模块、局部异质特征感知模块及全局同质特征感知模块;形变模块用于对图像进行弹性形变操作;局部异质特征感知模块用于学习图像中局部区域由于形变造成的结构差异信息;该模块包含特征提取器网络、多尺度特征网络和判别器网络;全局同质特征感知模块,用于实现网络对病理图像的全局特征的学习过程。本发明无需标注数据即可学习到具有提取局部结构特征的能力,并且能学习到病理图像的全局语义信息;较目前最好的自监督学习方法性能有较大提升。

    基于深度级联跨模态相关性的细粒度草图图像检索方法

    公开(公告)号:CN111324765A

    公开(公告)日:2020-06-23

    申请号:CN202010083047.4

    申请日:2020-02-07

    Applicant: 复旦大学

    Inventor: 张玥杰 王燕飞

    Abstract: 本发明属于跨媒体检索技术领域,具体为基于深度级联跨模态相关性的细粒度草图图像检索方法。本发明系统包括:深度多模态表示模块、深度多模态嵌入模块、深度三元组排序模块;深度多模态表示模块通过计算图像和文本在特征空间的高维映射,获取手绘草图、图像和图像文本描述的特征;深度多模态嵌入模块将不同模态的特征嵌入同一个高维向量空间,挑选出与查询草图具有较高相似性的候选集样本;深度三元组排序模块根据提取的多模态特征,对候选集样本进行排序优化,并输出与查询草图所对应的图像。本发明充分利用手绘草图和带有文本描述图像中的所有多模态信息,可以提高图像检索的效率,提升检索结果中前K个排名的有效性。

    基于图卷积神经网络的零样本草图图像检索方法和系统

    公开(公告)号:CN111291212A

    公开(公告)日:2020-06-16

    申请号:CN202010077162.0

    申请日:2020-01-24

    Applicant: 复旦大学

    Inventor: 张玥杰 张兆龙

    Abstract: 本发明属于多媒体信息检索技术领域,具体为基于图卷积神经网络的零样本草图图像检索方法和系统。本发明提供的零样本草图图像检索系统架构包括三个重要组成部分:特征编码网络、语义保持网络和语义重构网络;本发明通过特征提取网络提取草图和图像视觉特征;通过图卷积网络同时对草图和图像的视觉信息及其标签语义信息进行处理,建立未见过类别与见过类别之间的联系;最后通过语义重构网络,增强模型泛化能力;最终,模型将未见过类别的草图作为输入,并进行检索,找到与其相似的图像。本发明采用变分自编码器从视觉信息中生成语义信息,进一步增强模型的泛化能力。

    基于深度跨模态相关性学习的手绘草图的图像检索方法

    公开(公告)号:CN108595636A

    公开(公告)日:2018-09-28

    申请号:CN201810378357.1

    申请日:2018-04-25

    Applicant: 复旦大学

    Abstract: 本发明属于跨媒体相关性学习技术领域,具体为基于深度跨模态相关性学习的手绘草图的图像检索方法。本发明包括三个主要算法:深度多模态特征生成,多模态相关性学习建模,相似度排序优化。本发明利用深度学习技术来构造深度语义特征和深度视觉特征来分别描述多模态文档中的文本标注部分和图像/草图部分。基于这样的多模态文档表示,通过构建跨模态的相关性模型对整个多模态文档集合进行建模,从而对多模态文档的不同模态之间的关联进行描述。基于相关性建模后得到的相关性特征,对检索结果进行排序优化,返回与查询草图最大相似度的彩色图像和文本。

    融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法

    公开(公告)号:CN102662936B

    公开(公告)日:2015-01-07

    申请号:CN201210100424.6

    申请日:2012-04-09

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。

    面向网购平台的商品图像类别预测方法

    公开(公告)号:CN103345645A

    公开(公告)日:2013-10-09

    申请号:CN201310262308.9

    申请日:2013-06-27

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息检索技术领域,具体为基于网购平台的商品图像类别预测方法。本发明主要包含六个模块及相关算法,即训练图像的获取,图像特征提取,不相关图像过滤,图像特征训练,多层次图像分类,相关图像选择。本发明基于从网购平台上获取的真实数据,通过大规模数据的训练,能够自动分析图像中商品的类别信息,向用户提供购物指引,从而简化用户在线购物流程,增强用户体验,在图像检索领域具有广泛的应用价值。

    一种图像检索中基于文本的查询扩展与排序方法

    公开(公告)号:CN101901249A

    公开(公告)日:2010-12-01

    申请号:CN201010184725.2

    申请日:2010-05-12

    Applicant: 复旦大学

    Abstract: 本发明属于多媒体信息检索领域,涉及一种在图像检索中实现基于义类词典的查询扩展与排序的方法。该发明包含:基于WordNet的英语词语语义相似度度量算法、基于HowNet的汉语词语语义相似度度量算法、基于扩展规则的查询扩展词选择与优化算法、检索结果的评分与优化算法。本发明方法使用相关的文本处理方法和语义网络词典对图像搜索引擎进行改进,通过语义扩展与用户交互及通过改进的相似度度量对检索结果进行排序。较之于传统方法而言,本发明具有准确率高、完整性强且时空代价低的优点。对于在大规模图像数据集基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,在跨语言跨媒体检索领域具有广泛的应用价值。

Patent Agency Ranking