一种基于视听多模态融合的音视频事件检测方法

Invention Publication

CN116310945A 一种基于视听多模态融合的音视频事件检测方法审中-实审

Please log in to see more content

Patent Title: 一种基于视听多模态融合的音视频事件检测方法
Application No.: CN202310038705.1

Application Date: 2023-01-11
Publication No.: CN116310945A

Publication Date: 2023-06-23
Inventor: 朱冬晨 , 陈泓伯 , 张广慧 , 石文君 , 李嘉茂 , 张晓林
Applicant: 中国科学院上海微系统与信息技术研究所
Applicant Address: 上海市长宁区长宁路865号
Assignee: 中国科学院上海微系统与信息技术研究所
Current Assignee: 中国科学院上海微系统与信息技术研究所
Current Assignee Address: 上海市长宁区长宁路865号
Agency: 上海泰博知识产权代理有限公司
Agent 钱文斌
Main IPC: G06V20/40
IPC: G06V20/40 ; G06V10/40 ; G06V10/80 ; G06V10/82 ; G06V10/764 ; G06N3/047 ; G06N3/045 ; G06N3/0464 ; G06N3/08

Abstract:

本发明涉及一种基于视听多模态融合的音视频事件检测方法，包括：从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征；将所述2D视觉特征和3D视觉特征输入至第一模态共有‑私有子空间，所述第一模态共有‑私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征；将所述视觉特征和音频特征输入至第二模态共有‑私有子空间，得到视觉表征和听觉表征；将所述视觉表征和听觉表征输入至注意力池化层，得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）