Patent search ap:("北京邮电大学") AND inv:"曹秋实" Page 1

1.

发明公开
一种基于图文对比预训练大模型的时序动作定位方法审中-公开

公开(公告)号：CN118015364A

公开(公告)日：2024-05-10

申请号：CN202410181515.X

申请日：2024-02-18

Applicant: 北京邮电大学

Inventor： 张浩 , 冯春燕 , 曹秋实 , 郭彩丽

IPC: G06V10/764 , G06V10/80 , G06V10/40 , G06V10/774 , G06V10/75 , G06V20/40

Abstract: 本申请公开了一项基于图文对比预训练大模型的视频时序动作定位方法，具体如下：首先，利用图文对比预训练大模型分别处理视频帧与其对应的文本描述，视频帧通过预训练大模型的图像编码器得到视频特征，文本描述通过预训练大模型的文本编码器得到文本特征。然后，将得到的视频特征作为原始视频特征的扩充，利用可训练全连接层将两个特征充分融合。最后，将融合的视频特征通过视频编码器得到多尺度的视频特征，与先前大模型提取的文本特征进行相似度计算，得到每个尺度的视频特征与文本特征的匹配分数，利用这些匹配分数即可得到每一视频帧与对应动作标签的分类结果，为后续的动作回归以及最终的时序动作定位提供更准确可靠的分类结果。这一创新性方法综合运用了图文对比预训练大模型进行原始视频特征的扩充以及与文本特征相似度的计算，为视频时序动作定位任务提供了一种更加准确和全面的解决方案。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification