-
公开(公告)号:CN114332729B
公开(公告)日:2024-02-02
申请号:CN202111678887.6
申请日:2021-12-31
Applicant: 西安交通大学
Abstract: 本发明公开了一种视频场景检测标注方法及系统,根据输入视频、音频和文本嵌入的模态信息源,采用预训练模型获取视频、音频和文本的模态特征,将获取的视频、音频和文本的模态特征进行对齐和融合形成窗口基本跨模态表示,根据多时相注意和相邻窗口之间的差异,将窗口基本跨模态表示演化为自适应上下文感知表示,根据获取的自适应上下文感知表示对场景进行检测,通过窗口属性分类器确定窗口的属性,通过位置偏移回归器在该窗口中获取场景边界的准确位置;基于获取的场景边界,为每个场景指定多个标签实现场景标注,将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。通过跨模态线索的统一网络解决错误传播和巨大计算成本问题;将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。
-
公开(公告)号:CN114332729A
公开(公告)日:2022-04-12
申请号:CN202111678887.6
申请日:2021-12-31
Applicant: 西安交通大学
Abstract: 本发明公开了一种视频场景检测标注方法及系统,根据输入视频、音频和文本嵌入的模态信息源,采用预训练模型获取视频、音频和文本的模态特征,将获取的视频、音频和文本的模态特征进行对齐和融合形成窗口基本跨模态表示,根据多时相注意和相邻窗口之间的差异,将窗口基本跨模态表示演化为自适应上下文感知表示,根据获取的自适应上下文感知表示对场景进行检测,通过窗口属性分类器确定窗口的属性,通过位置偏移回归器在该窗口中获取场景边界的准确位置;基于获取的场景边界,为每个场景指定多个标签实现场景标注,将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。通过跨模态线索的统一网络解决错误传播和巨大计算成本问题;将场景检测归结为窗口属性分类和位置偏移回归,并通过两级分类器的集成学习解决多标签标注问题。
-