一种基于自监督学习的视频聚类方法

    公开(公告)号:CN114445739B

    公开(公告)日:2024-12-31

    申请号:CN202210022698.1

    申请日:2022-01-10

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式,学习得到视频在RGB和光流中的特征值,并对该特征值进行聚类。为了实现这一目标,将计算视频在RGB和光流中最近邻作为代理任务,实现无标签的视频特征提取。此外,对视频的每帧图片进行图片聚类,每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后,将直接对视频提取得到的聚类特征作为视频的动态特征,结合静态聚类标签得到最终视频聚类结果。本发明可以在视频识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。

    一种基于自监督学习的雷达信号分选识别方法

    公开(公告)号:CN114444546B

    公开(公告)日:2024-04-16

    申请号:CN202210103370.2

    申请日:2022-01-27

    Abstract: 本发明公开了一种基于自监督学习的雷达信号分选识别方法,通过结合时频分析和图像处理技术对雷达信号进行处理,该方法首先可利用无监督数据提升分类模型的泛化能力与抗噪声能力,首先通过多重同步压缩变换完成对雷达信号的时频变换,进而得到信号的RGB时频图像,接着对得到的时频图像进行尺寸放缩和归一化处理。随后基于时频二维图像数据训练自监督对比学习模型,再将训练完成的特征编码器迁移到下游的分类任务。在6个种类的信号数据上的模拟表明,本发明能够有效地提升下游分类任务的准确率,不同信噪比下,提升幅度从9%到53%不等,证明该方法可以有效利用无监督数据构建具有较好特征泛化能力的信号特征。

    基于样本代表性的类别不均衡多标签图像分类方法及系统

    公开(公告)号:CN115984607A

    公开(公告)日:2023-04-18

    申请号:CN202211554147.6

    申请日:2022-12-06

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于样本代表性的类别不均衡多标签图像分类方法及系统,方法中样本代表性的动态损失由分类权重和动态focal损失结合构成,所述分类权重由当前分类类别与样本其他类别的标签共现率和类数目输入代表性协调函数后计算获得,所述动态focal损失由分类器输出的logits和分类权重为每个样本对每个类别计算的参数结合获得,本方法考虑了类别间的关联性,对类别的正负加权分类讨论,实现对负类别更合理的加权设计,强调了样本对于类别的代表性,来应对一些类别繁多的困难样本,有效地解决了数据集中存在的类别不均衡问题。

    一种用于视频行为识别的正则化方法

    公开(公告)号:CN111898421B

    公开(公告)日:2022-11-11

    申请号:CN202010560716.2

    申请日:2020-06-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种用于视频行为识别的正则化方法,首先利用全局平均池化技术对每个时间步上的特征图进行显著性评估,利用gESD检验方法确定包含最显著空间特征的特征图,然后在选定的特征图内以通道为最小单元,以通道激活值占比为依据来计算每个通道的丢弃概率并执行丢弃操作(对应通道激活值置零),最后,由于正则化模块只在训练阶段生效,为保持训练阶段与推理阶段输出激活值幅度的一致性,需要为训练阶段的输出计算一个补偿系数与输出特征图相乘。本发明可以在推理阶段不增加任何额外计算消耗的情况下有效提高视频识别网络的验证集精度,且可以加入任何现有神经网络架构中,有效缓解网络在视频识别任务中过拟合空间特征而忽视时序特征的问题。

    一种基于代理度量模型的弱监督视频行为定位方法

    公开(公告)号:CN113420592A

    公开(公告)日:2021-09-21

    申请号:CN202110527929.X

    申请日:2021-05-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于代理度量模型的弱监督视频行为定位方法,视频行为定位在行为识别领域中扮演着重要的作用,由于人工对动作区间时序的标注既昂贵又费时,有效的弱监督的视频行为定位方法是不可或缺的,为了解决这个问题,本发明基于每个动作类的代理向量来训练模型,代理向量是通过训练得出的每个动作类的特征代表,它们被用于度量动作片段和不同动作原始特征的特征距离。本发明提出一种代理度量模块,它能使相同的动作片段特征聚类在一起,并且能让未裁剪视频中的背景片段特征远离动作片段特征,能有效地提高在弱监督环境下对视频进行行为定位的精度。

    一种基于动作配准的人物视频对齐方法

    公开(公告)号:CN113409374A

    公开(公告)日:2021-09-17

    申请号:CN202110785160.1

    申请日:2021-07-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于动作配准的人物视频对齐方法。该方法利用检测人体关键点作为动作配准基准点,对相似动作进行配准以抵消视频拍摄角度和画面旋转带来的影响,并通过自监督的时间循环一致性来进行视频对齐。为了实现这一目标,使用空间变换网络对人体所在区域进行校准,并获取对应人体关键点。此外,采用随机抽样一致性算法将识别到的人体特征点按误差最小原则进行筛选,用筛选得到的点将用于动作配准。最后,引入了一种自监督的时间循环一致性对齐算法,将动作配准后的视频与基准视频进行对齐。本发明可以在视频对齐和识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。

    一种基于动作配准的人物视频对齐方法

    公开(公告)号:CN113409374B

    公开(公告)日:2024-05-10

    申请号:CN202110785160.1

    申请日:2021-07-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于动作配准的人物视频对齐方法。该方法利用检测人体关键点作为动作配准基准点,对相似动作进行配准以抵消视频拍摄角度和画面旋转带来的影响,并通过自监督的时间循环一致性来进行视频对齐。为了实现这一目标,使用空间变换网络对人体所在区域进行校准,并获取对应人体关键点。此外,采用随机抽样一致性算法将识别到的人体特征点按误差最小原则进行筛选,用筛选得到的点将用于动作配准。最后,引入了一种自监督的时间循环一致性对齐算法,将动作配准后的视频与基准视频进行对齐。本发明可以在视频对齐和识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。

    一种处理噪声标签的自标签修改方法

    公开(公告)号:CN115861625A

    公开(公告)日:2023-03-28

    申请号:CN202211554141.9

    申请日:2022-12-06

    Applicant: 东南大学

    Inventor: 张宇 林凡 米思娅

    Abstract: 本发明公开了一种处理噪声标签的自标签修改方法,随机选取小批量数据样本,将数据样本进行数据增强处理得到不同的视图,作为伪孪生神经网络的输入,输出对数据样本类别的预测概率;根据不同网络对不同视图的预测计算与数据样本标签分布的JS散度,用于判断其作为干净数据样本的可能性;根据给定的判断阈值,将该批量数据样本划分为干净数据样本和有噪声数据样本,对干净数据样本的标签仅进行光滑化的处理,对有噪声的数据样本根据模型的预测和样本自身的标签进行动态加权赋予有噪声数据样本可靠的标签;最后利用分类损失函数和一致性损失函数对模型进行更新。本发明方法用于解决标签噪声下的图像分类任务,取得良好的性能效果。

    一种基于代理度量模型的弱监督视频行为定位方法

    公开(公告)号:CN113420592B

    公开(公告)日:2022-11-18

    申请号:CN202110527929.X

    申请日:2021-05-14

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于代理度量模型的弱监督视频行为定位方法,视频行为定位在行为识别领域中扮演着重要的作用,由于人工对动作区间时序的标注既昂贵又费时,有效的弱监督的视频行为定位方法是不可或缺的,为了解决这个问题,本发明基于每个动作类的代理向量来训练模型,代理向量是通过训练得出的每个动作类的特征代表,它们被用于度量动作片段和不同动作原始特征的特征距离。本发明提出一种代理度量模块,它能使相同的动作片段特征聚类在一起,并且能让未裁剪视频中的背景片段特征远离动作片段特征,能有效地提高在弱监督环境下对视频进行行为定位的精度。

    基于稠密-分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质

    公开(公告)号:CN111860222B

    公开(公告)日:2022-11-18

    申请号:CN202010620022.3

    申请日:2020-06-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于稠密‑分段式帧采样的视频行为识别方法、系统、计算机设备和存储介质。首先将视频均匀地分为N段,在每段中采样一帧做为关键帧,由关键帧组成关键片段。同时,对每一个关键帧,在其前后按固定的采样率采样连续若干帧,作为上下文帧。将上下文帧和其对应的关键帧组成一个上下文片段。进行一次稠密‑分段式帧采样,将会返回一个关键片段和N个上下文片段,将其送入时序稠密‑分段式网络TDSN中进行处理,从关键片段中提取长程时序信息,从上下文片段中提取局部上下文信息,将两种信息融合在一起,最终用于识别视频中的行为动作。本发明能够有效提取视频中的长程时序信息和局部上下文信息,有效地提升了视频行为识别的准确率。

Patent Agency Ranking