-
公开(公告)号:CN112199520B
公开(公告)日:2022-07-22
申请号:CN202010990707.7
申请日:2020-09-19
Applicant: 复旦大学
IPC: G06F16/41 , G06F16/45 , G06F16/483 , G06F16/901
Abstract: 本发明属于跨模态数据检索技术领域,具体为一种基于细粒度相似性矩阵的跨模态哈希检索算法。本发明算法主要针对图像检索文本与文本检索图像两个任务,包括:哈希码推理:利用图像‑文本对的标签信息构筑细粒度相似性矩阵,使哈希码保留图像‑文本数据项之间的细粒度相似性信息;构造一个自编码器,使哈希码尽可能保留标签中的语义信息;哈希函数学习:训练两个哈希函数,分别将图像和文本映射至哈希码,哈希码学习所用到的目标函数包含哈希码映射损失、带权重的相似性保留损失、及分类损失。本发明在图像搜索文本和文本搜索图像两个任务中都具有比较高的检索精度。
-
公开(公告)号:CN114519880A
公开(公告)日:2022-05-20
申请号:CN202210120706.6
申请日:2022-02-09
Applicant: 复旦大学
Abstract: 本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
-
公开(公告)号:CN111488474B
公开(公告)日:2022-03-18
申请号:CN202010204392.9
申请日:2020-03-21
Applicant: 复旦大学
Abstract: 本发明属于跨媒体检索技术领域,具体为基于增强注意力的细粒度手绘草图图像检索方法。本发明提出一种深度细粒度手绘草图图像检索FG‑SBIR模型,使用不同的注意力机制来进一步关注草图和图像之间的细粒度细节。新模型不仅关注草图和图像两种模态之间的相关性信息,同时也关注单一模态内的区别性信息。本发明提出互损失方法,以增强传统的三元组损失,并提高模型在单一模态内部细粒度特征的辨别能力。对于给定查询草图,本发明可返回其在特定类别中具有细粒度实例级相似性的相关图像,满足细粒度手绘草图图像检索的实例级检索严格要求。
-
公开(公告)号:CN113920458A
公开(公告)日:2022-01-11
申请号:CN202111102530.3
申请日:2021-09-20
Applicant: 复旦大学
IPC: G06V20/40 , G06V20/50 , G06V10/42 , G06V10/44 , G06V10/82 , G06F16/783 , G06F40/211 , G06F40/253 , G06N3/04 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,具体为一种基于感知上下文堆叠式注意力的视频描述生成方法。本发明利用高层语义知识对视频描述生成的帮助,讨论如何在生成过程当中利用高层语义信息提升模型性能,并提出感知上下文的堆叠式注意力网络,利用隐式方式对文本语义知识建模,利用注意力计算过程让模型通过训练学习到语句单词之间的语义关系。本发明通过定性和定量实验,展现出模型可以生成更加准确、语义更加丰富的描述的能力。
-
公开(公告)号:CN112199520A
公开(公告)日:2021-01-08
申请号:CN202010990707.7
申请日:2020-09-19
Applicant: 复旦大学
IPC: G06F16/41 , G06F16/45 , G06F16/483 , G06F16/901
Abstract: 本发明属于跨模态数据检索技术领域,具体为一种基于细粒度相似性矩阵的跨模态哈希检索算法。本发明算法主要针对图像检索文本与文本检索图像两个任务,包括:哈希码推理:利用图像‑文本对的标签信息构筑细粒度相似性矩阵,使哈希码保留图像‑文本数据项之间的细粒度相似性信息;构造一个自编码器,使哈希码尽可能保留标签中的语义信息;哈希函数学习:训练两个哈希函数,分别将图像和文本映射至哈希码,哈希码学习所用到的目标函数包含哈希码映射损失、带权重的相似性保留损失、及分类损失。本发明在图像搜索文本和文本搜索图像两个任务中都具有比较高的检索精度。
-
公开(公告)号:CN111489405A
公开(公告)日:2020-08-04
申请号:CN202010204393.3
申请日:2020-03-21
Applicant: 复旦大学
Abstract: 本发明属于跨媒体图像翻译技术领域,具体为基于条件增强生成对抗网络的人脸草图合成系统。本发明采用条件增强生成对抗网络,用于人脸草图合成,可提供更好的适应性;所述条件增强生成对抗网络由三个相互交互的子网络组成;所述三个子网络为用于基本人脸草图合成的跨模态转换网络、用于改进人脸草图合成的单模态优化网络、用于增强人脸草图风格的感知损失网络;条件增强生成对抗网络旨在从第一阶段子网和原始照片/图像中继承更多有关基本人脸草图的视觉信息,并探索更多有效的视觉内容,以解决在高分辨率人脸草图生成过程中丢失的细节视觉表达和图像草图之间的关联性问题。
-
公开(公告)号:CN111488474A
公开(公告)日:2020-08-04
申请号:CN202010204392.9
申请日:2020-03-21
Applicant: 复旦大学
Abstract: 本发明属于跨媒体检索技术领域,具体为基于增强注意力的细粒度手绘草图图像检索方法。本发明提出一种深度细粒度手绘草图图像检索FG-SBIR模型,使用不同的注意力机制来进一步关注草图和图像之间的细粒度细节。新模型不仅关注草图和图像两种模态之间的相关性信息,同时也关注单一模态内的区别性信息。本发明提出互损失方法,以增强传统的三元组损失,并提高模型在单一模态内部细粒度特征的辨别能力。对于给定查询草图,本发明可返回其在特定类别中具有细粒度实例级相似性的相关图像,满足细粒度手绘草图图像检索的实例级检索严格要求。
-
公开(公告)号:CN110188219A
公开(公告)日:2019-08-30
申请号:CN201910407916.1
申请日:2019-05-16
Applicant: 复旦大学
Abstract: 本发明属于图像检索技术领域,具体为面向图像检索的深度强化去冗余哈希算法。本发明算法包括:分块哈希码推理,利用图像的标签信息构筑相似性矩阵,然后依照该相似性矩阵推理每幅图像的最优哈希码,其中相似性矩阵较为巨大,采用分块方式进行求解;图像-哈希码映射,将图像的原始像素信息映射到已推理出的最优哈希码上,这一映射过程利用多分类来实现;哈希码冗余位去除,去除已产生的哈希码中对检索精度没有帮助甚至有害的哈希位,这一过程通过深度强化学习训练一个代理,由该代理来寻找一个最优掩码,从而利用此掩码便可去除冗余的哈希位。本发明训练速度更快,计算开销和存储开销省,检索精度高。
-
公开(公告)号:CN104778242B
公开(公告)日:2018-07-13
申请号:CN201510164390.0
申请日:2015-04-09
Applicant: 复旦大学
Abstract: 本发明属于图像检索技术领域,具体为一种基于图像动态分割的手绘草图图像检索方法与系统。本发明具体步骤为:数据库图像预处理;图像兴趣点局部特征提取;图像动态分割处理;图像兴趣点全局特征提取;图像兴趣点特征构造;手绘草图特征提取;图像‑手绘草图相似性计算,相似性最高的K幅图像将作为最后的检索结果返回给用户。其中涉及四个主要算法:局部特征自适应量化算法、基于兴趣点分布的图像动态分割算法、基于兴趣点分布的全局特征提取算法、图像‑手绘草图分区域加权相似性算法。本发明对于海量图像的检索具有非常重要的意义,能够很好的解决基于文本的图像检索的缺点,提高图像的检索精度,增强用户体验,在图像检索领域具有广泛的应用价值。
-
公开(公告)号:CN104899253B
公开(公告)日:2018-06-26
申请号:CN201510243776.0
申请日:2015-05-13
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于跨媒体相关性学习技术领域,具体为面向社会图像的跨模态图像‑标签相关度学习方法。本发明包括三个主要算法:多模态特征融合、双向相关度度量、跨模态相关度融合;本发明以超图为基本模型对整个社会图像数据集来进行描述,并分别将图像和标签映射为超图节点来进行处理,得到针对图像的相关度和针对标签的相关度,进而通过跨模态融合方法来将两种不同的相关度进行融合得到一种更好的相关度。较之于传统方法,本方法准确性高,适应性强。这对于在大规模弱标注的社会图像基础上,考虑多模态语义信息而进行高效社会图像检索具有重要的意义,能够提高检索相关性,增强用户体验,在跨媒体信息检索领域具有广泛的应用价值。
-
-
-
-
-
-
-
-
-