-
公开(公告)号:CN102663010A
公开(公告)日:2012-09-12
申请号:CN201210074292.4
申请日:2012-03-20
Applicant: 复旦大学
Abstract: 本发明属于多媒体信息检索技术领域,具体为一种基于标注语义的个性化图像浏览与推荐方法及系统。本发明包含算法框架和五个模块及相关算法,即基于本体理论的概念语义网络构建算法、基于本体的语义扩展相关算法、基于语义扩展的图像检索算法、对候选图像集进行排序的算法(包括图模型构建算法和随机游走算法)、以及基于用户偏好的用户建模算法等。本发明基于心理学的模型,提出新的个性化图像浏览方式,即综合图像检索和图像推荐两种模式。在大规模图像数据集的检索和推荐领域,能够提供更加符合用户需求的图像浏览与推荐方式,在跨语言跨媒体检索领域具有广泛的应用价值。
-
公开(公告)号:CN101876968A
公开(公告)日:2010-11-03
申请号:CN201010167065.7
申请日:2010-05-06
Applicant: 复旦大学
Abstract: 本发明属于文字处理技术领域,具体为对网络文本与手机短信进行不良内容识别的方法。该方法包括如下步骤:输入待检测文本,确定文本编码格式,对文本进行格式转换,将文本与短字符串词汇库进行比较,将文本与长字符串词汇库进行比较,对结果进行拷贝检测,显示最终结果。本方法可用于互联网不健康,暴力,反动文字的检测与过滤。阻止不健康内容的蔓延,保护青少年的身心健康。
-
公开(公告)号:CN114446317B
公开(公告)日:2025-04-04
申请号:CN202210093434.5
申请日:2022-01-26
Applicant: 复旦大学
IPC: G10L21/028 , G10L25/12 , G10L25/18 , G10L25/57 , G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于视听觉多模态的视频音源分离方法,具有这样的特征,包括以下步骤:步骤1,对视频的视觉信息和听觉信息进行特征提取,得到视觉标签和听觉特征;步骤2,将视觉标签和听觉特征放入多实例多标签网络,得到听觉特征与视觉标签的关联值;步骤3,将视频和关联值放入音源分离网络中,得到每一个对象的单独声音,其中,步骤2中,多实例多标签网络的训练包括以下步骤:步骤2‑1,构建初始多实例多标签网络;步骤2‑2,将一个视频中所得到的所有音频特征向量作为训练集放入多实例多标签网络中训练,得到每个音频特征向量和所有视觉对象的关联特征图。
-
公开(公告)号:CN114519880B
公开(公告)日:2024-04-05
申请号:CN202210120706.6
申请日:2022-02-09
Applicant: 复旦大学
IPC: G06V40/16 , G06V10/74 , G06V10/82 , G06N3/0895 , G06N3/0464
Abstract: 本发明提供一种基于跨模态自监督学习的主动说话人识别方法,通过利用视频的同步性特征来自动划分正负样本对用于训练,使得模型能够在无需人工标注的情况下训练至合适的参数,进一步,采用光流法追踪像素点在时间维度上的运动轨迹,通过计算轨迹上的注意力值的平均值可以得到整合后的注意力图,在注意力图上寻找注意力峰值的同时对其周围的区域进行非极大值抑制,能够方便准确地获取单帧注意力图上的人脸位置,通过沿着光流的轨迹反向投影,可准确获得原图中每一帧图片的人脸位置,通过利用人脸特征可计算与音频信号的余弦相似度,用预定的阈值过滤,从而获得能够对主动说话人图像以及非主动说话人图像同时进行高精度识别的主动说话人识别模型。
-
公开(公告)号:CN115393759A
公开(公告)日:2022-11-25
申请号:CN202210970846.2
申请日:2022-08-13
Applicant: 复旦大学
Abstract: 本发明属于跨媒体生成技术领域,具体为基于语义驱动的前背景区分视频描述生成系统。本发明的视频描述生成系统包括:视频特征提取网络、前背景区分网络、视频特征编码网络、及描述生成网络。视频特征提取网络对视频进行采样处理,获取视频特征,输出至前背景区分网络;前背景区分网络对视频特征根据语义信息进行区分,并输入至视频特征编码网络;描述生成网络根据视频特征编码网络输出的特征进行句子生成。本发明对视频序列特征进行区分,在生成描述语句时充分利用视频帧的前景和背景信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。
-
公开(公告)号:CN115311307A
公开(公告)日:2022-11-08
申请号:CN202210861961.6
申请日:2022-07-21
Applicant: 复旦大学
Abstract: 本发明属于医学图像处理技术领域,具体为基于时序一致性和上下文无关的半监督视频息肉分割系统。本发明的半监督视频息肉分割系统包括双分协同训练架构、序列矫正反向注意力模块、传播矫正反向注意力模块、及上下文无关损失函数。双分支模型包括一个分割分支和一个传播分支,两者对无标签图像使用交叉伪标签方式进行监督;序列矫正反向注意力模块提取整个序列的时序信息,保证整个输入预测的时序一致性;传播矫正反向注意力模块利用存储池逐帧提取时序信息;上下文无关损失函数保证该系统对不断变化的背景信息不敏感。本发明可在1/15的标注比下取得很好的分割性能,对于大规模视频息肉分割数据集以及其他医学镜像分割任务具有广泛应用价值。
-
公开(公告)号:CN111291212B
公开(公告)日:2022-10-11
申请号:CN202010077162.0
申请日:2020-01-24
Applicant: 复旦大学
IPC: G06F16/583 , G06V10/80 , G06N3/04 , G06N3/08
Abstract: 本发明属于多媒体信息检索技术领域,具体为基于图卷积神经网络的零样本草图图像检索方法和系统。本发明提供的零样本草图图像检索系统架构包括三个重要组成部分:特征编码网络、语义保持网络和语义重构网络;本发明通过特征提取网络提取草图和图像视觉特征;通过图卷积网络同时对草图和图像的视觉信息及其标签语义信息进行处理,建立未见过类别与见过类别之间的联系;最后通过语义重构网络,增强模型泛化能力;最终,模型将未见过类别的草图作为输入,并进行检索,找到与其相似的图像。本发明采用变分自编码器从视觉信息中生成语义信息,进一步增强模型的泛化能力。
-
公开(公告)号:CN108416065B
公开(公告)日:2021-08-31
申请号:CN201810267719.X
申请日:2018-03-28
Applicant: 复旦大学
Abstract: 本发明提供基于层级神经网络的图像‑句子描述生成系统及方法,本发明提供的基于层级神经网络的图像‑句子描述生成系统包括:深度卷积网络、第一深度循环神经网络、第二深度循环神经网络;所述深度卷积网络获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
-
公开(公告)号:CN111464881B
公开(公告)日:2021-08-13
申请号:CN201910047321.X
申请日:2019-01-18
Applicant: 复旦大学
Abstract: 本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。
-
公开(公告)号:CN111464881A
公开(公告)日:2020-07-28
申请号:CN201910047321.X
申请日:2019-01-18
Applicant: 复旦大学
Abstract: 本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。
-
-
-
-
-
-
-
-
-