一种视频中的人-物交互关系检测方法及装置

    公开(公告)号:CN112464875B

    公开(公告)日:2024-06-25

    申请号:CN202011450346.3

    申请日:2020-12-09

    Applicant: 南京大学

    Abstract: 一种视频中的人‑物交互关系检测方法及装置,通过目标轨迹检测提取视频中主语和物体的时空轨迹,再由交互联合推理基于目标轨迹检测的结果识别人‑物交互关系HOI,交互联合推理从目标时空轨迹中提取多模特征,包括人和物体的融合语义特征、人体行为视觉描述特征和人‑物时空相对运动特征,使用多特征融合的方式进行联合推理,预测视频段上的人‑物交互动作,得到预测的交互类别标签,即人‑物交互关系。本发明提出了一种基于时空域的人‑物交互检测方法,通过从复杂的视频视觉场景中捕获场景的高级语义信息,成功发现、定位和分类视频中人‑物对及其之间的交互关系。

    一种基于自监督学习的多模态预训练模型迁移方法

    公开(公告)号:CN118097685A

    公开(公告)日:2024-05-28

    申请号:CN202410298433.3

    申请日:2024-03-15

    Applicant: 南京大学

    Abstract: 一种基于自监督学习的多模态预训练模型迁移方法,对于预训练好的视觉语言模型,通过一个两阶段文本提示优化框架对文本提示进行优化,提升视觉语言模型的开集能力,首先利用初始化后的文本提示通过有监督任务和自监督任务进行联合优化,然后再利用自监督任务进行二阶段优化,得到鲁棒且泛化性强的文本提示,从而将视觉语言模型迁移到下游图像识别任务中。本发明提出一种新颖且简洁的框架,设计鲁棒且泛化性强的文本提示,弥补预训练任务和下游任务间差异,缓解有监督学习过程中的过拟合问题,对任意的测试类别集合自适应,且无需利用额外知识库;能够有效且高效地将预训练多模态模型迁移到下游任务中,并增强其泛化性。

    一种基于兴趣传播网络的兴趣视觉关系检测方法及装置

    公开(公告)号:CN111985505B

    公开(公告)日:2024-02-13

    申请号:CN202010848981.0

    申请日:2020-08-21

    Applicant: 南京大学

    Abstract: 达图像主体内容的兴趣视觉关系,具有良好的广一种基于兴趣传播网络的兴趣视觉关系检 泛性与实用性。测方法及装置,从输入图像中提取物体,并两两组合为物体对,计算相应的物体特征和联合特征,生成物体和物体对的视觉特征、语义特征和位置特征,经线性变换得到物体和物体对的兴趣特征,由此预测物体对兴趣度,并将物体对关系谓语的视觉特征、语义特征和位置特征经线性变换得到关系谓语的兴趣特征,预测物体间的关系谓语兴趣度;最后将物体对兴趣度和关系谓语兴趣度相结合得到视觉关系兴趣度,兴趣度高的视(56)对比文件陈方芳.基于目标对筛选和联合谓语识别的视觉关系检测《.中国优秀硕士学位论文全文数据库 信息科技辑》.2019,(第8期),I138-657.Yu, Fan,等.Visual Relation ofInterest Detection《.MM '20: PROCEEDINGSOF THE 28TH ACM INTERNATIONAL CONFERENCEON MULTIMEDIA》.2020,第1386-1394页.

    一种基于视频和文字对判别分析的视频特征学习方法

    公开(公告)号:CN111242033B

    公开(公告)日:2024-01-09

    申请号:CN202010032964.X

    申请日:2020-01-13

    Applicant: 南京大学

    Abstract: 一种基于视频和文字描述对判别的视频特征学习方法,将视频及与视频匹配的文字描述构成视频‑文字对,采用三维卷积网络提取视频特征,采用DistilBERT网络提取文字描述特征,通过训练使视频和其对应的文字描述具有相似的语义特征,使得文字描述自动成为对应视频的标签,训练构建深度学习网络,用于对视频特征的学习。本发明提出了一种利用文字描述信息作为辅助信息进行视频特征学习的方法,能够有效减少人力成本的同时学习到高效的视频特征表示,利用视频和文字描述进行判别化的方法进行视频特征学习的方法,能够更加有效得利用数据集中的所有数据,得到更加具有判别力的视频表征。

    一种端到端时序动作检测方法、电子设备及存储介质

    公开(公告)号:CN117079188A

    公开(公告)日:2023-11-17

    申请号:CN202311067826.5

    申请日:2023-08-22

    Abstract: 一种端到端时序动作检测方法、电子设备及存储介质,基于ViT模型构建一个时序动作检测模型ViT‑TAD用于完成依赖长时建模的时序动作检测任务,首先将长时视频片段划分为多个短时片段,送入ViT‑TAD进行时序动作检测,通过插入ViT骨干网络中的两个信息传播模块用于引导检测模型学习全局时序语义信息,之后由一个长时时序动作检测器进行动作检测,通过端到端的训练方式,在训练中更新信息传播模块的内部参数。本发明在时序动作检测任务上具有自适应性强、检测流程直接、检测结果准确等特点,和现有的方法相比,本发明在主流数据集和实际应用中都具有更好的表现。

    一种基于全卷积网络在线训练的单目标跟踪方法

    公开(公告)号:CN113538507B

    公开(公告)日:2023-11-17

    申请号:CN202010293393.5

    申请日:2020-04-15

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于全卷积网络在线训练的目标追踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段;本发明通过设计的完全端到端训练的全卷积网络,采用生成目标分类和目标回归模板来指导分类和回归任务,以及在线更新分类和回归模板的策略,来实现目标追踪任务。本发明通过一个简洁的全卷积网络结构以及对分类和回归模板进行在线优化,获得了鲁棒性强且精度高的单目标跟踪方法。

    一种基于迁移学习的半监督异常检测方法

    公开(公告)号:CN113128613B

    公开(公告)日:2023-10-17

    申请号:CN202110471648.7

    申请日:2021-04-29

    Applicant: 南京大学

    Abstract: 一种基于迁移学习的半监督异常检测方法,构建一个卷积神经网络进行异常检测,卷积神经网络包括网络#imgabs0#和网络#imgabs1#两个网络模块,以及用于特征融合的全连接层,分别用异常检测数据集和一个不相关的有标签参考数据集预训练网络#imgabs2#和网络#imgabs3#再对预训练得到的网络#imgabs4#和网络#imgabs5#进行联合训练,由训练得到的卷积神经网络进行异常检测。本发明通过迁移学习的方法,以一个参考数据集进行辅助,实现半监督异常检测,网络模型能充分利用数据中的标注信息,增加了对正常样本和异常样本的区分能力,同时增强了模型对有污染数据的鲁棒性。使用本发明方法训练的模型,AUC指标从72.2%提升到了75.9%,有效提升了检测的准确性。

    基于多级条件影响的卷积神经网络的细粒度动作检测方法

    公开(公告)号:CN111444889B

    公开(公告)日:2023-07-25

    申请号:CN202010362830.4

    申请日:2020-04-30

    Applicant: 南京大学

    Abstract: 基于多级条件影响的卷积神经网络的细粒度动作检测方法,建立一个多级条件影响的卷积神经网络,将视觉场景中附加的显性知识与多级视觉特征融合,所述多级条件影响的卷积神经网络MLCNet以条件影响的多分支卷积神经网络结构为主干,生成多级视觉特征,同时将人体结构和物体语境信息的附加空间语义信息作为条件进行编码,通过仿射变换和注意机制动态影响CNN的特征提取,最后融合调制多模特征以区分各种交互动作;对多级条件影响的卷积神经网络进行模型训练,得到的模型输出细粒度动作检测结果。本发明在HICO‑DET和V‑COCO这两个最常用的基准上对所提出的方法进行评估,实验结果表明,本发明方法优于现有的方法。

Patent Agency Ranking