-
公开(公告)号:CN116310945A
公开(公告)日:2023-06-23
申请号:CN202310038705.1
申请日:2023-01-11
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V20/40 , G06V10/40 , G06V10/80 , G06V10/82 , G06V10/764 , G06N3/047 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于视听多模态融合的音视频事件检测方法,包括:从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征;将所述2D视觉特征和3D视觉特征输入至第一模态共有‑私有子空间,所述第一模态共有‑私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征;将所述视觉特征和音频特征输入至第二模态共有‑私有子空间,得到视觉表征和听觉表征;将所述视觉表征和听觉表征输入至注意力池化层,得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。