-
公开(公告)号:CN115471774A
公开(公告)日:2022-12-13
申请号:CN202211139594.5
申请日:2022-09-19
Applicant: 中南大学
Abstract: 本发明提供了一种基于音视频双模态特征融合的视频时域动作分割方法,设计了一种视频时域动作分割网络模型,将音频特征引入到视频时域动作分割任务中,利用音频天然的波形特征以及视频特征用于回归动作边界概率,并设计多阶段视听双模态级联网络,用以捕获视频的边界信息,细化网络的逐帧动作预测;同时设计视听双模态边界回归模块计算音频特征和视频特征得到动作边界概率并对上述多阶段视听双模态级联网络的动作分类结果进行细化,捕获可靠的视频片段与正确的视频动作分类,用以缓解视频分割时的边界模糊问题,提高视频动作分割效果。