一种基于高质量伪标签的单帧监督时序动作检测方法

    公开(公告)号:CN118823648A

    公开(公告)日:2024-10-22

    申请号:CN202411014227.1

    申请日:2024-07-26

    摘要: 本发明公开了一种基于高质量伪标签的单帧监督时序动作检测方法,包括:1获取视频数据集以及单帧监督,并提取视频的时空特征,2构建种子提名生成模型,3构建提名包生成模块,4构建细化网络,5训练全监督时序动作检测器,并对任意视频进行预测。本发明能基于单帧监督信号提取更高质量的伪标签,从而能基于高质量伪标签训练全监督时序动作检测器实现对任意视频的动作检测,进而提升单帧监督时序动作检测的性能。

    基于语言专家模型的视觉常识推理方法

    公开(公告)号:CN117540809A

    公开(公告)日:2024-02-09

    申请号:CN202311643941.2

    申请日:2023-12-04

    IPC分类号: G06N5/04 G06N5/02 G06N3/0455

    摘要: 本发明公开了一种基于语言专家模型的视觉常识推理方法,包括以下步骤:步骤1、获取多个图像‑文本对数据构建数据集,图像‑文本对数据中视觉元素为图像,语言元素为问题、答案选项和解释选项;步骤2、采用图像‑文本对数据,对视觉语言模型VLM进行预训练得到联合表示;并且,将语言元素输入至GreaseLM模型得到联合表示;步骤3、通过多层感知器将VL‑bert模型、GreaseLM模型分别输出的联合表示结合,由此得到答案选项和解释选项的预测分布。本发明方法能够引入域外的常识信息来降低训练时对于多模态数据集数据量的要求,进而能够有效提升模型推理能力。

    有图像引导的故事结尾生成模型的迭代式对抗攻击方法

    公开(公告)号:CN117115827A

    公开(公告)日:2023-11-24

    申请号:CN202310534074.2

    申请日:2023-05-12

    IPC分类号: G06V30/19 G06F40/30 G06F21/60

    摘要: 本发明公开了一种有图像引导的故事结尾生成模型的迭代式对抗攻击方法,本发明以有效地对文本‑图像样本对进行不可感知的攻击,将图像模态攻击融合到文本模态攻击中,当原始文本中的每一个小的扰动都变成连续空间时,迭代地扰动图像模态,这样就可以对图像引导的故事结尾生成模型的对抗性文本和图像进行攻击搜索,而不是独立搜索(单模态攻击方法)。实验结果表明,迭代式对抗攻击方法在攻击成功率和语义相似度方面优于现有的单模态对抗性攻击方法(kNN和WordSwap)和多模态对抗性攻击方法(Co‑attack)。

    面向视觉-语言预训练模型的多模态迁移对抗攻击方法

    公开(公告)号:CN117094000A

    公开(公告)日:2023-11-21

    申请号:CN202310991798.X

    申请日:2023-08-08

    摘要: 本发明公开了一种面向视觉‑语言预训练模型的多模态迁移对抗攻击方法,(1)定义问题和最大化损失函数;(2)基于梯度信息同时生成对抗性图像和对抗性文本,利用对比学习提升多模态对抗样本的迁移性。本发明提出的方法基于梯度信息将文本对抗攻击和图像对抗攻击整合到一个统一的框架中,可以同时生成对抗性文本和对抗性图像;同时本发明利用对比学习可以提高特征迁移性的特点,通过图文跨模态对比学习和模态内对比学习使得对抗样本能够在特征空间中从不同的视角远离原始样本,从而扰动多模态样本中一般化的结构特征,缓解了对抗样本在替代模型上过拟合的情况。