基于序列生成的视频理解统一架构实现方法、设备及介质

    公开(公告)号:CN118038319A

    公开(公告)日:2024-05-14

    申请号:CN202410170987.5

    申请日:2024-02-06

    Applicant: 南京大学

    Abstract: 基于序列生成的视频理解统一架构实现方法、设备及介质,将时间动作检测TAD、时间动作分割TAS和通用事件边界检测GEBD三个视频理解任务的输入,统一成同一个空间中的token,传入编码器‑解码器架构的神经网络,根据不同任务分别解码出相应的结果,实现视频理解统一架构。本发明所提出的视频理解领域三个任务的统一架构,拥有对于不同视频理解任务的处理能力,可以从各视频理解任务的数据集中联合训练,得到更优良的结果。同时更加方便了模型部署,只需要训练一次就可以处理三种不同的视频理解任务。

Patent Agency Ranking