-
公开(公告)号:CN111464881B
公开(公告)日:2021-08-13
申请号:CN201910047321.X
申请日:2019-01-18
Applicant: 复旦大学
Abstract: 本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。
-
公开(公告)号:CN111464881A
公开(公告)日:2020-07-28
申请号:CN201910047321.X
申请日:2019-01-18
Applicant: 复旦大学
Abstract: 本发明具体为面向视频的跨模态视频描述生成方法。本发明包括三个主要算法部分,即视频内容理解、显著视觉信息获取、自然语言描述生成。本发明使用新型卷积神经网络为基本模型对视频数据集生产自然语言描述,而未使用传统的循环神经网络,并根据堆叠结构的特性设计全新的注意力机制,计算当前词汇与视觉表示的相关度,同时获取每个时刻最关键的视觉信息。和传统视频描述生成方法相比,本方法所关注的视觉信息更为精确,生成的自然语言描述更加准确且符合日常表达方式。这对考虑视频与文本之间的多模态信息而进行视频理解和表达具有重要意义,能够提高模型对视觉信息的理解能力,增强用户体验,在跨媒体信息理解领域具有广泛应用价值。
-