一种长视频理解方法、装置、设备及存储介质

    公开(公告)号:CN119380240A

    公开(公告)日:2025-01-28

    申请号:CN202411483042.5

    申请日:2024-10-23

    Abstract: 本发明公开了一种长视频理解方法、装置、设备及存储介质,包括:获取用户的问题指令及对应问题指令的长视频;基于长视频的视觉内容和预先训练的基于多头自注意力机制的深度学习网络模型,输出语义特征向量集;对语义特征向量集中的语义特征向量进行合并,获得长视频的视觉特征;将长视频的帧位置和语义特征向量集输入至预先训练的U形神经网络模型中,确定视觉特征相对于长视频的预设帧的相对位置;将相对位置添加至对应的视觉特征中,生成视觉时序特征;将视觉时序特征和问题指令输入至预先训练的长视频理解模型中,输出问题指令对应的问题答案。利用该方法:利用时间定位的方式保证模型找到视频中正确的时间位置,从而增强长视频理解的能力。

    一种针对文生图扩散大模型的图片生成加速方法

    公开(公告)号:CN118229817A

    公开(公告)日:2024-06-21

    申请号:CN202410404035.5

    申请日:2024-04-05

    Abstract: 一种针对文生图扩散大模型的图片生成加速方法,对预训练的文生图扩散模型,在扩散模型的加噪过程,在加噪路径中对于后步与前步采用阶段性重采样策略进行线性插值采样,得到中间加噪,通过在中间加噪与前步加噪之间的一致性约束关系进行模型训练;同时,在扩散模型的去噪逆采样过程中,在后步与前步间隔内多次逐步求解;通过阶段性重采样策略和多步逆采样策略减少训练中的误差,减少扩散模型逆采样次数,完成对预训练的扩散模型的图片生成加速。本发明基于一致性模型的训练思想,在继承扩散模型整体优势的同时,进一步加速图片的生成效率,训练的模型具有性能优异,计算开销少,本发明适用性高,可用于各类扩散模型框架。

    一种基于自监督学习的多模态预训练模型迁移方法

    公开(公告)号:CN118097685A

    公开(公告)日:2024-05-28

    申请号:CN202410298433.3

    申请日:2024-03-15

    Applicant: 南京大学

    Abstract: 一种基于自监督学习的多模态预训练模型迁移方法,对于预训练好的视觉语言模型,通过一个两阶段文本提示优化框架对文本提示进行优化,提升视觉语言模型的开集能力,首先利用初始化后的文本提示通过有监督任务和自监督任务进行联合优化,然后再利用自监督任务进行二阶段优化,得到鲁棒且泛化性强的文本提示,从而将视觉语言模型迁移到下游图像识别任务中。本发明提出一种新颖且简洁的框架,设计鲁棒且泛化性强的文本提示,弥补预训练任务和下游任务间差异,缓解有监督学习过程中的过拟合问题,对任意的测试类别集合自适应,且无需利用额外知识库;能够有效且高效地将预训练多模态模型迁移到下游任务中,并增强其泛化性。

    一种基于视频和文字对判别分析的视频特征学习方法

    公开(公告)号:CN111242033B

    公开(公告)日:2024-01-09

    申请号:CN202010032964.X

    申请日:2020-01-13

    Applicant: 南京大学

    Abstract: 一种基于视频和文字描述对判别的视频特征学习方法,将视频及与视频匹配的文字描述构成视频‑文字对,采用三维卷积网络提取视频特征,采用DistilBERT网络提取文字描述特征,通过训练使视频和其对应的文字描述具有相似的语义特征,使得文字描述自动成为对应视频的标签,训练构建深度学习网络,用于对视频特征的学习。本发明提出了一种利用文字描述信息作为辅助信息进行视频特征学习的方法,能够有效减少人力成本的同时学习到高效的视频特征表示,利用视频和文字描述进行判别化的方法进行视频特征学习的方法,能够更加有效得利用数据集中的所有数据,得到更加具有判别力的视频表征。

    一种端到端时序动作检测方法、电子设备及存储介质

    公开(公告)号:CN117079188A

    公开(公告)日:2023-11-17

    申请号:CN202311067826.5

    申请日:2023-08-22

    Abstract: 一种端到端时序动作检测方法、电子设备及存储介质,基于ViT模型构建一个时序动作检测模型ViT‑TAD用于完成依赖长时建模的时序动作检测任务,首先将长时视频片段划分为多个短时片段,送入ViT‑TAD进行时序动作检测,通过插入ViT骨干网络中的两个信息传播模块用于引导检测模型学习全局时序语义信息,之后由一个长时时序动作检测器进行动作检测,通过端到端的训练方式,在训练中更新信息传播模块的内部参数。本发明在时序动作检测任务上具有自适应性强、检测流程直接、检测结果准确等特点,和现有的方法相比,本发明在主流数据集和实际应用中都具有更好的表现。

    一种基于全卷积网络在线训练的单目标跟踪方法

    公开(公告)号:CN113538507B

    公开(公告)日:2023-11-17

    申请号:CN202010293393.5

    申请日:2020-04-15

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于全卷积网络在线训练的目标追踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段;本发明通过设计的完全端到端训练的全卷积网络,采用生成目标分类和目标回归模板来指导分类和回归任务,以及在线更新分类和回归模板的策略,来实现目标追踪任务。本发明通过一个简洁的全卷积网络结构以及对分类和回归模板进行在线优化,获得了鲁棒性强且精度高的单目标跟踪方法。

    基于自适应解码器的时空动作检测方法、设备及介质

    公开(公告)号:CN116385928A

    公开(公告)日:2023-07-04

    申请号:CN202310307390.6

    申请日:2023-03-27

    Applicant: 南京大学

    Abstract: 基于自适应解码器的时空动作检测方法、设备及介质,构建一个时空动作检测器OSD,首先将查询解耦为空间查询和时间查询;其次,对于视频骨干网络提取的全局视频特征,通过解码器自适应地根据空间查询的语义信息在全局视频特征上进行采样得到人物RoI特征;再次,RoI特征与时空查询分别进行自适应的特征混合,实现查询更新;最后,更新后的查询使用分类网络,同时获得人物位置框提名与对应的动作类别概率向量。本发明结合了查询定义与自适应解码器技术,能够提升基于查询的时空动作检测器的检测性能,在时空动作检测任务上具有自适应性强、检测流程直接、查询建模高效、检测结果准确等特点。

    一种多模态视频理解方法
    20.
    发明公开

    公开(公告)号:CN115129934A

    公开(公告)日:2022-09-30

    申请号:CN202210765668.X

    申请日:2022-07-01

    Applicant: 南京大学

    Inventor: 王利民 金力为

    Abstract: 本发明公开了一种多模态视频理解方法,包括建立多模态融合网络,将视频中的采样片段输入多模态融合网络后得到一号特征向量及整个视频的分类分数,将视频标题文本通过编码器和多层感知机得到二号特征向量,将一号特征向量与二号特征向量进行余弦相似度计算,得出视频对比学习框架。本发明通过话题识别任务促进工业界开发更完备的深度模型,实现对于短视频整体的高层语义理解;视频文本互检索放弃了预定义类别体系和传统的强监督学习范式,转而使用自然语言作为监督信号,视频文本互检索并非唯一利用语言信息帮助视频理解的途径,视频标题生成与基于文本的视频生成同样可以实现。

Patent Agency Ranking