Patent search ap:("南京大学") AND inv:"张子辰" Page 1

1.

发明公开
基于序列生成的视频理解统一架构实现方法、设备及介质审中-实审

公开(公告)号：CN118038319A

公开(公告)日：2024-05-14

申请号：CN202410170987.5

申请日：2024-02-06

Applicant: 南京大学

Inventor： 王利民 , 杨珉 , 张子辰 , 武港山

IPC: G06V20/40 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/084

Abstract: 基于序列生成的视频理解统一架构实现方法、设备及介质，将时间动作检测TAD、时间动作分割TAS和通用事件边界检测GEBD三个视频理解任务的输入，统一成同一个空间中的token，传入编码器‑解码器架构的神经网络，根据不同任务分别解码出相应的结果，实现视频理解统一架构。本发明所提出的视频理解领域三个任务的统一架构，拥有对于不同视频理解任务的处理能力，可以从各视频理解任务的数据集中联合训练，得到更优良的结果。同时更加方便了模型部署，只需要训练一次就可以处理三种不同的视频理解任务。

Patent Agency Ranking