运动引导掩码方法及视觉变压器模型的预训练方法

    公开(公告)号:CN116168331A

    公开(公告)日:2023-05-26

    申请号:CN202310333935.0

    申请日:2023-03-30

    Abstract: 本发明公开一种运动引导掩码方法,其选取视频片段中的一帧作为基准帧,并使用混合高斯分布得到基准帧的掩码图,同时以基准帧为起点,向两侧分别提取光流,然后基于光流,从基准帧开始逐帧生成视频片段的掩码图,最后按预设的视频立方块尺寸对掩码图进行划分,并对每个视频立方块内的值进行求和,在时序维度上,将掩码比率等于预设值的取值最大的位置作为遮掩位置,其余位置视作可见非遮掩位置,以完成视频掩码。该方法根据物体运动动态调整不同帧的掩码位置,能够更好地抑制信息泄露。

    一种基于位置不确定性估计的单目标跟踪方法

    公开(公告)号:CN115393388A

    公开(公告)日:2022-11-25

    申请号:CN202110566900.2

    申请日:2021-05-24

    Applicant: 南京大学

    Abstract: 一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络主体训练阶段;3)元分类器离线训练阶段;4)在线跟踪阶段;本发明设计的位置不确定性估计模块能够预测网络输出位置坐标的置信度信息,在后续阶段使用位置投票机制生成最终的预测框,从而能够给出精确的回归边界框。此外,本发明提出了一种基于元学习的在线更新策略,使得跟踪器能够适应目标外形与尺度变化,从而提高追踪器的鲁棒性。相比现有的单目标跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。

    一种基于自适应解码器的目标检测方法及装置

    公开(公告)号:CN114612716A

    公开(公告)日:2022-06-10

    申请号:CN202210227694.7

    申请日:2022-03-08

    Applicant: 南京大学

    Abstract: 一种基于自适应解码器的目标检测方法及装置,构建一个目标检测模型AdaMixer,包括网络配置阶段、训练阶段以及测试阶段,配合骨干网络得到的不同大小的特征图组合成3D特征空间,在其中进行高效的特征采样,并通过自适应地配合查询量的空间信息和位置信息完成对采样特征的增强,实现目标检测任务。本发明通过对不同图片查询量的自适应模块,有效利用查询量中的信息,避免了冗余网络结构,节省了计算量,使网络快速稳定收敛。引入了3D特征空间的采样,对位置信息和语义信息进行高效的编码,能更好地配合自适应模块,灵活、高效、快速、准确地完成目标检测任务。

    时序边界检测方法及时序感知器

    公开(公告)号:CN114494314B

    公开(公告)日:2025-05-06

    申请号:CN202111615241.3

    申请日:2021-12-27

    Applicant: 南京大学

    Abstract: 时序边界检测方法及时序感知器,基于变换解码器结构和注意力机制,建立通用的无类别时序动作检测模型,检测模型的编码器中引入少量隐特征查询量,通过交叉注意力机制将输入特征压缩到固定维度,并使用变换解码器对特征进行解码,实现通用无类别时序边界的稀疏检测。本发明通过特征压缩,有效解决了长视频的时序冗余问题,并将二次模型的复杂度降低到线性级别;构建边界查询量和上下文查询量这两种隐特征查询量,以相应处理视频中语义不连贯的边界区域和连贯的上下文区域,充分利用视频的语义结构;提出基于交叉注意力计算的对齐损失函数,使网络快速稳定收敛;使用变换解码器稀疏编码边界位置,避免复杂后处理,提高模型泛化性能。

    视频信息处理方法、装置、电子设备及存储介质

    公开(公告)号:CN113569605B

    公开(公告)日:2024-07-16

    申请号:CN202110058983.4

    申请日:2021-01-17

    Abstract: 本公开提供了一种视频信息处理方法,包括:对目标视频进行采样处理以获取目标视频所对应的采样图像帧和中心图像帧;确定中心图像帧的物体特征向量、层次关系树结构、关系特征向量;确定采样图像帧的物体时序特征向量和关系时序特征向量;根据物体特征向量、关系特征向量、层次关系树结构、物体时序特征向量和采样图像帧的关系时序特征向量,通过视频信息处理模型进行特征向量聚合处理;对采样图像帧中的物体进行分类;确定与目标视频相对应的视频场景图。本公开还提供了信息处理装置、电子设备及存储介质。本公开不但有效压缩视频处理模型的模型结构,减少计算量,同时所生成的场景图的准确率较高,场景图生成速度较快,提升了用户的使用体验。

    一种基于不动点建模的目标检测的方法、设备及存储介质

    公开(公告)号:CN116824234A

    公开(公告)日:2023-09-29

    申请号:CN202310702902.9

    申请日:2023-06-14

    Applicant: 南京大学

    Abstract: 一种基于不动点建模的目标检测的方法、设备及存储介质,基于不动点建模的目标检测器训练策略,将原有的计算机视觉中的多层用于微调的解码器层进行压缩,仅使用一层进行不动点迭代来不断微调检测结果,同时在训练过程中采用微调感知梯度策略,以及微调感知扰动策略,通过增强检测器对于微调过程的感知,来提高目标检测器的性能。本发明能够和现有方法进行很好的融合,可以迁移到现有的多种目标检测器中,不改变模型结构的同时,通过不动点建模,将多层参数共享,降低参数量和节省训练显存的同时提升目标检测器的性能。

    基于单目视频的多阶段人体动作捕捉方法、设备及介质

    公开(公告)号:CN116386141A

    公开(公告)日:2023-07-04

    申请号:CN202310329938.7

    申请日:2023-03-30

    Applicant: 南京大学

    Abstract: 基于单目视频的多阶段人体动作捕捉方法、设备及介质,对于固定相机情境下拍摄的单目RGB视频,将人体动作捕捉分为多个阶段:第一阶段使用人体姿态检测器对输入的单目视频逐帧估计二维的人体关节点;第二阶段利用深度学习来获取视频序列中的空间与时序信息,学习从二维的人体关节点到相机空间中的三维人体关节点的映射关系,并感知人体在三维空间中的运动轨迹和触地情况;第三阶段引入反向运动学思想,通过制定合理的惩罚策略,将三维的人体网格模型拟合到三维骨骼上,以更真实地刻画运动序列。本发明显著地提升重建出的人体模型与输入的RGB图像的对齐程度,并且更加真实地估计双脚与地面的接触情况,视觉上有明显的提升。

Patent Agency Ranking