Patent search ap:("复旦大学") AND inv:"于家硕" Page 1

1.

发明授权
一种基于跨模态注意力机制的视听事件定位方法及装置有权

公开(公告)号：CN112989977B

公开(公告)日：2022-09-06

申请号：CN202110235810.5

申请日：2021-03-03

Applicant: 复旦大学

Inventor： 于家硕 , 程颖 , 冯瑞

IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08 , G10L15/16

Abstract: 本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：对目标音视频进行预处理得到图像特征以及音频特征；基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别。其中，神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息，并使用一个模态的信息处理另一模态的信息，实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。

2.

发明公开
一种基于多尺度语义网络的视听视频解析装置及方法审中-实审

公开(公告)号：CN114519809A

公开(公告)日：2022-05-20

申请号：CN202210134629.X

申请日：2022-02-14

Applicant: 复旦大学

Inventor： 于家硕 , 冯瑞 , 张玥杰

IPC: G06V10/82 , G06V10/764 , G06K9/62 , G06N3/04 , G06N3/08 , G10L25/57 , G10L25/27 , G10L25/03

Abstract: 本发明提供一种基于多尺度语义网络的视听视频解析方法及装置，用于对目标音视频中所有单模态和多模态事件进行识别和定位，其特征在于，通过对目标音视频进行了预处理得到的视觉特征和音频特征，然后由基于多尺度语义网络构建的视听视频解析模型对视觉特征和音频特征进行识别和定位从而生成目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻。其中，视听视频解析模型包含跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及基于注意力的多模态多实例学习池化模块，跨模态时序卷积注意力网络用于捕捉多尺度语义，自适应语义融合模块用于多尺度语义的融合，基于注意力的多模态多实例学习模块用于实现弱监督学习。

3.

发明公开
一种基于跨模态注意力机制的视听事件定位方法及装置有权

公开(公告)号：CN112989977A

公开(公告)日：2021-06-18

申请号：CN202110235810.5

申请日：2021-03-03

Applicant: 复旦大学

Inventor： 于家硕 , 程颖 , 冯瑞

IPC: G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08 , G10L15/16

Abstract: 本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：对目标音视频进行预处理得到图像特征以及音频特征；基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出目标音视频中每一个时刻的事件类别。其中，神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息，并使用一个模态的信息处理另一模态的信息，实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。

Patent Agency Ranking