-
公开(公告)号:CN116168331A
公开(公告)日:2023-05-26
申请号:CN202310333935.0
申请日:2023-03-30
Applicant: 上海人工智能创新中心 , 南京大学
IPC: G06V20/40 , G06V10/774
Abstract: 本发明公开一种运动引导掩码方法,其选取视频片段中的一帧作为基准帧,并使用混合高斯分布得到基准帧的掩码图,同时以基准帧为起点,向两侧分别提取光流,然后基于光流,从基准帧开始逐帧生成视频片段的掩码图,最后按预设的视频立方块尺寸对掩码图进行划分,并对每个视频立方块内的值进行求和,在时序维度上,将掩码比率等于预设值的取值最大的位置作为遮掩位置,其余位置视作可见非遮掩位置,以完成视频掩码。该方法根据物体运动动态调整不同帧的掩码位置,能够更好地抑制信息泄露。
-
公开(公告)号:CN116168329A
公开(公告)日:2023-05-26
申请号:CN202310307393.X
申请日:2023-03-27
Applicant: 南京大学
IPC: G06V20/40 , G06V40/20 , G06V10/764 , G06V10/25 , G06V10/80 , G06V10/40 , G06V10/77 , G06V10/776 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 基于关键帧筛选像素块的视频动作检测方法、设备及介质,构建检测器对输入视频片段进行动作检测,检测器对视频帧进行特征提取以及以关键帧为中心的token筛选,然后基于查询对关键帧进行人物定位,最后基于扩展的RoI和紧凑的时空上下文进行关系建模,预测人物可能执行的多个动作。本发明提出了一种加速视频动作检测器EVAD,在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块,以逐步删除非关键帧特征中的无效tokens,并以端到端的方式预测人物定位和动作分类,极大地提升了模型的推理速度,对实时动作检测友好。
-
公开(公告)号:CN115393580A
公开(公告)日:2022-11-25
申请号:CN202110565129.7
申请日:2021-05-24
Applicant: 南京大学
IPC: G06V10/26 , G06V10/764 , G06V10/762 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 一种基于峰值挖掘和过滤的弱监督实例分割方法,包括以下步骤:1)处理样本阶段;2)网络配置阶段;3)训练阶段;4)测试阶段。本发明设计的基于峰值挖掘和过滤策略引入特征融合、对抗擦除、聚类分析以增强峰值响应图的多样性和完整性,并通过迭代检索和置信度更新以检索更精确的分割掩膜。相比现有的弱监督实例分割方法,本发明的分割算法能够对图像中不同尺寸的物体实现更完整、准确的分割,从而有效地提升实例分割的精度。
-
公开(公告)号:CN115393388A
公开(公告)日:2022-11-25
申请号:CN202110566900.2
申请日:2021-05-24
Applicant: 南京大学
IPC: G06T7/246 , G06V10/82 , G06V10/774 , G06V10/764 , G06N3/04 , G06N3/08
Abstract: 一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络主体训练阶段;3)元分类器离线训练阶段;4)在线跟踪阶段;本发明设计的位置不确定性估计模块能够预测网络输出位置坐标的置信度信息,在后续阶段使用位置投票机制生成最终的预测框,从而能够给出精确的回归边界框。此外,本发明提出了一种基于元学习的在线更新策略,使得跟踪器能够适应目标外形与尺度变化,从而提高追踪器的鲁棒性。相比现有的单目标跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。
-
公开(公告)号:CN114612716A
公开(公告)日:2022-06-10
申请号:CN202210227694.7
申请日:2022-03-08
Applicant: 南京大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 一种基于自适应解码器的目标检测方法及装置,构建一个目标检测模型AdaMixer,包括网络配置阶段、训练阶段以及测试阶段,配合骨干网络得到的不同大小的特征图组合成3D特征空间,在其中进行高效的特征采样,并通过自适应地配合查询量的空间信息和位置信息完成对采样特征的增强,实现目标检测任务。本发明通过对不同图片查询量的自适应模块,有效利用查询量中的信息,避免了冗余网络结构,节省了计算量,使网络快速稳定收敛。引入了3D特征空间的采样,对位置信息和语义信息进行高效的编码,能更好地配合自适应模块,灵活、高效、快速、准确地完成目标检测任务。
-
公开(公告)号:CN114494314B
公开(公告)日:2025-05-06
申请号:CN202111615241.3
申请日:2021-12-27
Applicant: 南京大学
IPC: G06T7/13 , G06F16/75 , G06N3/0455
Abstract: 时序边界检测方法及时序感知器,基于变换解码器结构和注意力机制,建立通用的无类别时序动作检测模型,检测模型的编码器中引入少量隐特征查询量,通过交叉注意力机制将输入特征压缩到固定维度,并使用变换解码器对特征进行解码,实现通用无类别时序边界的稀疏检测。本发明通过特征压缩,有效解决了长视频的时序冗余问题,并将二次模型的复杂度降低到线性级别;构建边界查询量和上下文查询量这两种隐特征查询量,以相应处理视频中语义不连贯的边界区域和连贯的上下文区域,充分利用视频的语义结构;提出基于交叉注意力计算的对齐损失函数,使网络快速稳定收敛;使用变换解码器稀疏编码边界位置,避免复杂后处理,提高模型泛化性能。
-
公开(公告)号:CN113569605B
公开(公告)日:2024-07-16
申请号:CN202110058983.4
申请日:2021-01-17
Applicant: 南京大学 , 腾讯科技(深圳)有限公司
IPC: G06V20/40 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种视频信息处理方法,包括:对目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;确定中心图像帧的物体特征向量、层次关系树结构、关系特征向量;确定采样图像帧的物体时序特征向量和关系时序特征向量;根据物体特征向量、关系特征向量、层次关系树结构、物体时序特征向量和采样图像帧的关系时序特征向量,通过视频信息处理模型进行特征向量聚合处理;对采样图像帧中的物体进行分类;确定与目标视频相对应的视频场景图。本公开还提供了信息处理装置、电子设备及存储介质。本公开不但有效压缩视频处理模型的模型结构,减少计算量,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。
-
公开(公告)号:CN116824234A
公开(公告)日:2023-09-29
申请号:CN202310702902.9
申请日:2023-06-14
Applicant: 南京大学
IPC: G06V10/764 , G06V10/82 , G06V10/52 , G06N3/0455 , G06N3/084 , G06N3/082
Abstract: 一种基于不动点建模的目标检测的方法、设备及存储介质,基于不动点建模的目标检测器训练策略,将原有的计算机视觉中的多层用于微调的解码器层进行压缩,仅使用一层进行不动点迭代来不断微调检测结果,同时在训练过程中采用微调感知梯度策略,以及微调感知扰动策略,通过增强检测器对于微调过程的感知,来提高目标检测器的性能。本发明能够和现有方法进行很好的融合,可以迁移到现有的多种目标检测器中,不改变模型结构的同时,通过不动点建模,将多层参数共享,降低参数量和节省训练显存的同时提升目标检测器的性能。
-
公开(公告)号:CN116386141A
公开(公告)日:2023-07-04
申请号:CN202310329938.7
申请日:2023-03-30
Applicant: 南京大学
IPC: G06V40/20 , G06V10/46 , G06V10/82 , G06T17/00 , G06V10/762
Abstract: 基于单目视频的多阶段人体动作捕捉方法、设备及介质,对于固定相机情境下拍摄的单目RGB视频,将人体动作捕捉分为多个阶段:第一阶段使用人体姿态检测器对输入的单目视频逐帧估计二维的人体关节点;第二阶段利用深度学习来获取视频序列中的空间与时序信息,学习从二维的人体关节点到相机空间中的三维人体关节点的映射关系,并感知人体在三维空间中的运动轨迹和触地情况;第三阶段引入反向运动学思想,通过制定合理的惩罚策略,将三维的人体网格模型拟合到三维骨骼上,以更真实地刻画运动序列。本发明显著地提升重建出的人体模型与输入的RGB图像的对齐程度,并且更加真实地估计双脚与地面的接触情况,视觉上有明显的提升。
-
公开(公告)号:CN116363560A
公开(公告)日:2023-06-30
申请号:CN202310294674.6
申请日:2023-03-23
Applicant: 上海人工智能创新中心 , 南京大学
IPC: G06V20/40 , H04N19/136 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/088
Abstract: 本发明涉及视频学习技术领域,提出一种视频掩码自编码方法及系统。该方法在预训练阶段基于双重掩码策略对编码器和解码器进行掩码,包括:使用立方嵌入处理输入视频生成视频块;基于管道掩码策略生成第一掩码图Me,由编码器根据所述第一掩码图Me确定可见的视频块以及不可见的视频块,并且提取部分可见的视频块的特征;以及基于运动单元掩码策略生成第二掩码图Md,由解码器根据所述第二掩码图Md重建部分不可见的视频块的特征。本发明基于上述双重掩码策略进行预训练,可以在保持模型性能的条件下,降低预训练开销,进而可以有效节省计算机的运算资源。
-
-
-
-
-
-
-
-
-