Invention Publication
- Patent Title: 一种基于视听多模态融合的音视频事件检测方法
-
Application No.: CN202310038705.1Application Date: 2023-01-11
-
Publication No.: CN116310945APublication Date: 2023-06-23
- Inventor: 朱冬晨 , 陈泓伯 , 张广慧 , 石文君 , 李嘉茂 , 张晓林
- Applicant: 中国科学院上海微系统与信息技术研究所
- Applicant Address: 上海市长宁区长宁路865号
- Assignee: 中国科学院上海微系统与信息技术研究所
- Current Assignee: 中国科学院上海微系统与信息技术研究所
- Current Assignee Address: 上海市长宁区长宁路865号
- Agency: 上海泰博知识产权代理有限公司
- Agent 钱文斌
- Main IPC: G06V20/40
- IPC: G06V20/40 ; G06V10/40 ; G06V10/80 ; G06V10/82 ; G06V10/764 ; G06N3/047 ; G06N3/045 ; G06N3/0464 ; G06N3/08

Abstract:
本发明涉及一种基于视听多模态融合的音视频事件检测方法,包括:从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征;将所述2D视觉特征和3D视觉特征输入至第一模态共有‑私有子空间,所述第一模态共有‑私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征;将所述视觉特征和音频特征输入至第二模态共有‑私有子空间,得到视觉表征和听觉表征;将所述视觉表征和听觉表征输入至注意力池化层,得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。
Information query