-
公开(公告)号:CN104778242A
公开(公告)日:2015-07-15
申请号:CN201510164390.0
申请日:2015-04-09
Applicant: 复旦大学
Abstract: 本发明属于图像检索技术领域,具体为一种基于图像动态分割的手绘草图图像检索方法与系统。本发明具体步骤为:数据库图像预处理;图像兴趣点局部特征提取;图像动态分割处理;图像兴趣点全局特征提取;图像兴趣点特征构造;手绘草图特征提取;图像-手绘草图相似性计算,相似性最高的K幅图像将作为最后的检索结果返回给用户。其中涉及四个主要算法:局部特征自适应量化算法、基于兴趣点分布的图像动态分割算法、基于兴趣点分布的全局特征提取算法、图像-手绘草图分区域加权相似性算法。本发明对于海量图像的检索具有非常重要的意义,能够很好的解决基于文本的图像检索的缺点,提高图像的检索精度,增强用户体验,在图像检索领域具有广泛的应用价值。
-
公开(公告)号:CN102662936A
公开(公告)日:2012-09-12
申请号:CN201210100424.6
申请日:2012-04-09
Applicant: 复旦大学
Abstract: 本发明属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。
-
公开(公告)号:CN119006779A
公开(公告)日:2024-11-22
申请号:CN202411019001.0
申请日:2024-07-29
Applicant: 复旦大学
IPC: G06V10/25 , G06V10/764 , G06V10/82 , G06V20/70 , G06F40/186 , G06F40/211 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/088 , G06N3/0895 , G06N5/02
Abstract: 本发明属于图像处理技术领域,具体为基于伪标签的无监督视觉定位系统。本发明包括区域提议生成模块、区域描述生成模块、查询构建模块;区域提议生成模块通过预训练的目标检测器识别图像中可能存在的实体区域、类别及其置信度,通过类别偏置消除器解决置信度在类别分布的不均匀问题;区域描述生成模块利用多模态大语言模型的跨模态知识生成区域提议的描述,通过描述矫正器修正错误描述;查询构建模块通过修饰树和提示语模板构建查询。本发明利用预训练的目标检测器和多模态大语言模型蕴含的跨模态知识,构建开放词汇的视觉定位伪标签,可显著提升视觉定位的准确率。
-
公开(公告)号:CN116612281A
公开(公告)日:2023-08-18
申请号:CN202310570960.0
申请日:2023-05-20
Applicant: 复旦大学
IPC: G06V10/26 , G06V20/70 , G06V10/762 , G06V10/764 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0455 , G06N3/0499 , G06N3/048 , G06N3/084
Abstract: 本发明属于图像处理技术领域,具体为基于文本监督的开放词汇图像语义分割系统。本发明包括图像编码器、文本编码器、跨模态解码器、图像‑描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块;图像编码器用于对图像特征进行提取,使用可学习的群组表征对图像进行聚类;文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;学习优化模块,使得模型在仅使用文本监督条件下学习视觉‑文本对齐,得到优化分割的网络模型;本发明在仅使用文本监督条件下学习有效的视觉‑文本对齐,在公共数据集上实验表明,在无掩码训练条件下取得最佳图像语义分割结果。
-
公开(公告)号:CN115309939A
公开(公告)日:2022-11-08
申请号:CN202210869465.5
申请日:2022-07-22
Applicant: 复旦大学
Abstract: 本发明属于多模态检索技术领域,具体为基于时空语义分解的视频片段定位系统。本发明系统包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块、片段边界定位模块;视频和文本的编码器模块分别对视频和文本进行特征提取,生成含有上下文信息的特征;时空语义分解模块将文本按照词性分为空间词和时间词,将视频以不同的帧率采样得到快视频流和慢视频流;多模态注意力模块先计算空间词和慢视频流的互注意力,将结果和快视频流融合,然后再计算时间词和快视频流的互注意力,得到两种模态的融合特征;片段边界定位模块先计算目标片段终点的帧,然后在预测的终点帧之前的帧中回归起点帧。本发明可提高对相似查询的区分能力,提升系统性能。
-
公开(公告)号:CN111489405B
公开(公告)日:2022-09-16
申请号:CN202010204393.3
申请日:2020-03-21
Applicant: 复旦大学
Abstract: 本发明属于跨媒体图像翻译技术领域,具体为基于条件增强生成对抗网络的人脸草图合成系统。本发明采用条件增强生成对抗网络,用于人脸草图合成,可提供更好的适应性;所述条件增强生成对抗网络由三个相互交互的子网络组成;所述三个子网络为用于基本人脸草图合成的跨模态转换网络、用于改进人脸草图合成的单模态优化网络、用于增强人脸草图风格的感知损失网络;条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息,并探索更多有效的视觉内容,以解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题。
-
公开(公告)号:CN111275118A
公开(公告)日:2020-06-12
申请号:CN202010072862.0
申请日:2020-01-22
Applicant: 复旦大学
Abstract: 本发明属于医学图像处理领域,具体为基于自我修正式标签生成网络的胸片多标签分类方法。本发明通过构建自我修正式标签生成网络模型,用于胸片的多标签分类;该网络包括:ResNet图像编码器、自我修正式注意力机制模块以及GRU解码器;图像编码器用于获取输入图像即胸片图像的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中;自我修正式注意力机制模块在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向解码器输出上下文特征向量;解码器根据上下文特征向量和之前时刻生成的标签词向量,生成当前时刻图像所对应的标签。本发明有效解决了胸片多标签分类中的预测效果不平衡问题。
-
公开(公告)号:CN103345645B
公开(公告)日:2016-09-28
申请号:CN201310262308.9
申请日:2013-06-27
Applicant: 复旦大学
Abstract: 本发明属于多媒体信息检索技术领域,具体为基于网购平台的商品图像类别预测方法。本发明主要包含六个模块及相关算法,即训练图像的获取,图像特征提取,不相关图像过滤,图像特征训练,多层次图像分类,相关图像选择。本发明基于从网购平台上获取的真实数据,通过大规模数据的训练,能够自动分析图像中商品的类别信息,向用户提供购物指引,从而简化用户在线购物流程,增强用户体验,在图像检索领域具有广泛的应用价值。
-
公开(公告)号:CN104166982A
公开(公告)日:2014-11-26
申请号:CN201410304578.6
申请日:2014-06-30
Applicant: 复旦大学
IPC: G06T7/00
Abstract: 本发明属于跨媒体信息技术领域,具体为一种基于典型相关性分析的图像优化聚类方法。本发明主要是采用典型相关性分析,同时考虑媒体数据不同模态下的内容特征,通过子空间映射算法,将媒体数据不同模态下的特征同时映射到一个统一维数的同构子空间,然后通过优化聚类算法得到最终聚簇结果。本发明克服多媒体领域中只是使用数据的单模态特征限制,有效解决不同模态下媒体数据在底层特征上的异构性问题,实现不同模态之间媒体对象信息的统一度量,并在大规模图像数据集中得到更准确、更有效、更加符合需求的图像聚类结果,在跨媒体信息处理与检索领域中具有广泛的应用价值。
-
公开(公告)号:CN102629275B
公开(公告)日:2014-04-02
申请号:CN201210076089.0
申请日:2012-03-21
Applicant: 复旦大学
Abstract: 本发明属于跨媒体信息检索技术领域,具体为跨媒体新闻检索中基于图像特征和文本语义的人脸-人名对齐方法与系统。本发明包括四个主要算法:人名重要性评估算法、基于Web挖掘的多模态信息发现算法、人脸集内聚度度量算法和多模态对齐组合优化算法。本发明使用相关的图像特征和文本语义处理方法,同时建立相关数学模型,对新闻图像搜索进行优化,包括通过多级别深层次的文本语义分析,有效的人脸-人名对齐评估机制,具有问题针对性的组合优化。本发明对于在大规模且多样性新闻图像基础上,考虑图像高层语义信息而进行高效图像检索具有非常重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。
-
-
-
-
-
-
-
-
-