一种基于图文对比预训练大模型的时序动作定位方法

    公开(公告)号:CN118015364A

    公开(公告)日:2024-05-10

    申请号:CN202410181515.X

    申请日:2024-02-18

    Abstract: 本申请公开了一项基于图文对比预训练大模型的视频时序动作定位方法,具体如下:首先,利用图文对比预训练大模型分别处理视频帧与其对应的文本描述,视频帧通过预训练大模型的图像编码器得到视频特征,文本描述通过预训练大模型的文本编码器得到文本特征。然后,将得到的视频特征作为原始视频特征的扩充,利用可训练全连接层将两个特征充分融合。最后,将融合的视频特征通过视频编码器得到多尺度的视频特征,与先前大模型提取的文本特征进行相似度计算,得到每个尺度的视频特征与文本特征的匹配分数,利用这些匹配分数即可得到每一视频帧与对应动作标签的分类结果,为后续的动作回归以及最终的时序动作定位提供更准确可靠的分类结果。这一创新性方法综合运用了图文对比预训练大模型进行原始视频特征的扩充以及与文本特征相似度的计算,为视频时序动作定位任务提供了一种更加准确和全面的解决方案。

Patent Agency Ranking