-
公开(公告)号:CN117079188A
公开(公告)日:2023-11-17
申请号:CN202311067826.5
申请日:2023-08-22
Applicant: 南京大学 , 南京英麒智能科技有限公司
IPC: G06V20/40 , G06V10/774 , G06V10/764 , G06V10/82 , G06V40/20 , G06N3/084
Abstract: 一种端到端时序动作检测方法、电子设备及存储介质,基于ViT模型构建一个时序动作检测模型ViT‑TAD用于完成依赖长时建模的时序动作检测任务,首先将长时视频片段划分为多个短时片段,送入ViT‑TAD进行时序动作检测,通过插入ViT骨干网络中的两个信息传播模块用于引导检测模型学习全局时序语义信息,之后由一个长时时序动作检测器进行动作检测,通过端到端的训练方式,在训练中更新信息传播模块的内部参数。本发明在时序动作检测任务上具有自适应性强、检测流程直接、检测结果准确等特点,和现有的方法相比,本发明在主流数据集和实际应用中都具有更好的表现。
-
公开(公告)号:CN118038319A
公开(公告)日:2024-05-14
申请号:CN202410170987.5
申请日:2024-02-06
Applicant: 南京大学
IPC: G06V20/40 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/084
Abstract: 基于序列生成的视频理解统一架构实现方法、设备及介质,将时间动作检测TAD、时间动作分割TAS和通用事件边界检测GEBD三个视频理解任务的输入,统一成同一个空间中的token,传入编码器‑解码器架构的神经网络,根据不同任务分别解码出相应的结果,实现视频理解统一架构。本发明所提出的视频理解领域三个任务的统一架构,拥有对于不同视频理解任务的处理能力,可以从各视频理解任务的数据集中联合训练,得到更优良的结果。同时更加方便了模型部署,只需要训练一次就可以处理三种不同的视频理解任务。
-