-
公开(公告)号:CN109447242B
公开(公告)日:2021-08-20
申请号:CN201811176057.1
申请日:2018-10-10
Applicant: 复旦大学
Abstract: 本发明为基于迭代学习的图像描述重生成系统及方法,包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图,利用显著性区域检测算法来生成显著性区域掩码。此外,知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练,即基于显著性区域掩码的全局图像视觉表示精炼,基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制,第二轮循环神经网络可生成精炼的图像描述。
-
公开(公告)号:CN108416065A
公开(公告)日:2018-08-17
申请号:CN201810267719.X
申请日:2018-03-28
Applicant: 复旦大学
Abstract: 本发明提供基于层级神经网络的图像-句子描述生成系统及方法,本发明提供的基于层级神经网络的图像-句子描述生成系统包括:深度卷积网络、第一深度循环神经网络、第二深度循环神经网络;所述深度卷积网络获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
-
公开(公告)号:CN108416065B
公开(公告)日:2021-08-31
申请号:CN201810267719.X
申请日:2018-03-28
Applicant: 复旦大学
Abstract: 本发明提供基于层级神经网络的图像‑句子描述生成系统及方法,本发明提供的基于层级神经网络的图像‑句子描述生成系统包括:深度卷积网络、第一深度循环神经网络、第二深度循环神经网络;所述深度卷积网络获取图像,计算图像特征向量在嵌入空间的嵌入向量;并输出到第一深度循环神经网络和第二深度循环神经网络;所述第一深度循环神经网络识别图像中包含的物体,向第二深度循环神经网络输出物体序列;所述第二深度循环神经网络根据所述嵌入向量和物体序列输出描述所述图像的句子。
-
公开(公告)号:CN111464881B
公开(公告)日:2021-08-13
申请号:CN201910047321.X
申请日:2019-01-18
Applicant: 复旦大学
Abstract: 本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。
-
公开(公告)号:CN111464881A
公开(公告)日:2020-07-28
申请号:CN201910047321.X
申请日:2019-01-18
Applicant: 复旦大学
Abstract: 本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。
-
公开(公告)号:CN109447242A
公开(公告)日:2019-03-08
申请号:CN201811176057.1
申请日:2018-10-10
Applicant: 复旦大学
Abstract: 本发明为基于迭代学习的图像描述重生成系统及方法,包括:深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图,利用显著性区域检测算法来生成显著性区域掩码。此外,知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练,即基于显著性区域掩码的全局图像视觉表示精炼,基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制,第二轮循环神经网络可生成精炼的图像描述。
-
-
-
-
-