-
公开(公告)号:CN113869463A
公开(公告)日:2021-12-31
申请号:CN202111457536.2
申请日:2021-12-02
Applicant: 之江实验室
Abstract: 本发明公开了一种基于交叉增强匹配的长尾噪声学习方法,用于解决同时具有长尾特征与噪声标签的图像分类问题。根据数据噪声特征,该方法通过对弱增强数据与强增强数据分别取得的预测结果进行匹配来筛选噪声样本,并引入一种剔除噪声的正则化措施来消除被识别噪声样本的影响。针对数据长尾特征,该方法实施一种新的基于在线先验分布的预测惩罚以避免对头部类别的偏置。本发明实现方法简便,手段灵活,在实时获取类拟合度方面具有优势,因此在长尾数据、噪声数据以及同时具有二者特征的训练数据上都取得显著的分类效果提升。
-
公开(公告)号:CN113837154A
公开(公告)日:2021-12-24
申请号:CN202111411082.5
申请日:2021-11-25
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多任务辅助的开放集过滤系统及方法,用于解决监控场景下属性分类过程中的开放集干扰问题。该系统包括图像划分层、池化层和全连接层,图像划分层与池化层之间的每个网络阶段,包括固定窗口多头自注意力机制块和移动窗口多头自注意力机制块,将每个网络阶段的固定窗口多头自注意力机制块串联;该方法利用transformer能够实现全网络感受野不变的特点,在构建的属性分类网络上,加入分割分支实现图像块分割,利用图像块分割过滤属性分类中的开放集,针对图像块分割过程中背景、前景数量不均衡问题,实施一种新的基于特征增广的惩罚公式,提升图像块分割分支前景、背景的识别效果。
-
公开(公告)号:CN113688843A
公开(公告)日:2021-11-23
申请号:CN202110903074.6
申请日:2021-08-06
Applicant: 之江实验室
Abstract: 本发明涉及深度学习图像识别领域,尤其涉及一种基于Transformer‑VAE的零样本目标识别方法,将Transformer的编码器、解码器以及VAE的编码器、解码器结合起来,实现视觉特征域的编解码以及语义特征域的编解码,通过跨域对齐损失约束,将视觉特征域和语义特征域的隐变量限制在同一个空间,对已知类及未知类进行编码得到的隐变量进行分类,实现零样本目标识别。本发明的零样本目标识别在已知类上进行训练后能够很好得泛化到未知类上,大大降低了样本的采集与标注成本,大幅提升没有样本及样本较少场景下图像识别的任务性能,促进零样本目标识别的领域发展,加快零样本目标识别在科研与工业的研究与应用。
-
公开(公告)号:CN117253177B
公开(公告)日:2024-04-05
申请号:CN202311545738.1
申请日:2023-11-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种动作视频分类方法、装置及介质,该方法将输入视频在空间上均匀分块,即令牌token,各块拉伸后得到的向量经过线性映射,得到第一视频特征;将第一视频特征输入编码模块中,得到第二视频特征;编码模块由若干个编码器组成;每个编码器由混合注意力及通道转移模块和多层感知机组成;混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作;混合注意力包括空间注意力、时间注意力和随机注意力;第二视频特征经过空间池化操作后,送入分类器中进行分类,并得到各视频帧的分类结果;然后再使用时域均匀聚合操作,得到输入视频的分类结果。本发明的混合注意力有效降低了注意力机制的运算开销,时间复杂度低。
-
公开(公告)号:CN117292209A
公开(公告)日:2023-12-26
申请号:CN202311585233.8
申请日:2023-11-27
Applicant: 之江实验室
IPC: G06V10/764 , G06V20/40
Abstract: 本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸、线性映射和叠加位置嵌入向量,得到第一视频特征;将第一视频特征经过Transformer网络进行处理,得到第二视频特征;每层网络均包含时空增强三维注意力模块和多层感知机;时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支,自适应地增强具有时空关联的令牌之间的依赖关系,推理时计算等价地退化为三维注意力操作,以降低推理开销;将第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,再经过时域平均池化操作,得到视频的类别预测结果。
-
公开(公告)号:CN115829005B
公开(公告)日:2023-06-27
申请号:CN202211580737.6
申请日:2022-12-09
Applicant: 之江实验室
IPC: G06N3/0464 , G06N3/08 , G06F18/24 , G06V10/82 , G06V10/764
Abstract: 本发明面向卷积神经分类网络的缺陷自动诊断与修复方法及装置,包括下列步骤:1)卷积神经分类网络预测重要性归一化;2)激活图重要性得分计算;3)正常样本激活图规律统计;4)分类错误样本激活图筛选;5)卷积神经分类网络自动化缺陷修复。本发明设计的是一种面向卷积神经分类网络的全自动缺陷诊断与修复方法,用于已经预训练的卷积神经分类网络模型缺陷检测与自动修复,能够有效提升深度卷积神经分类网络模型的分类性能。
-
公开(公告)号:CN115238130B
公开(公告)日:2022-12-06
申请号:CN202211149191.9
申请日:2022-09-21
Applicant: 之江实验室
IPC: G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 本发明公开了基于模态定制协同注意力交互的时序语言定位方法及装置,包括以下步骤:步骤S1:构建数据集;步骤S2:提取视频表征;步骤S3:得到多粒度查询表征Q;步骤S4:获取已语义对齐视频表征;步骤S5:获得每一帧处的目标片段时序边界回归值、语义匹配分数和时序交并比回归值;步骤S6:得到训练好的基于模态定制协同注意力交互的时序语言定位模型;步骤S7:测试,得到时序语言定位结果。本发明将配备协同注意力的Transformer架构用于时序语言定位任务,并设计了一种模态定制的双流协同注意力交互层,用于并行的视频流的多粒度协同注意力交互和查询流的标准协同注意力交互,本发明方法实现简单,手段灵活,可显著提升时序语言定位任务性能。
-
公开(公告)号:CN115063731B
公开(公告)日:2022-11-11
申请号:CN202210980577.8
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统,包括以下步骤:步骤S1:构建采样帧输入至主干网络;步骤S2:第一阶段段内运动信息建模,输出包含短时运动信息的视频卷积特征;步骤S3:第二阶段段间运动信息建模,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;步骤S4:经过全连接层后得到各视频段的分类结果并融合,训练网络。本发明利用卷积神经网络的多层次结构,在网络的较低层和较高层分别提取段内运动信息和段间运动信息,达到分阶段运动综合建模的目的。此外,本发明计算视频卷积特征各空间块之间的注意力关系,使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。
-
公开(公告)号:CN113516207A
公开(公告)日:2021-10-19
申请号:CN202111059448.7
申请日:2021-09-10
Applicant: 之江实验室
Abstract: 本发明公开了一种带噪声标签的长尾分布图像分类方法,通过样本依赖的松弛间隔损失进行学习,并辅以抗噪声的数据增强策略,用于解决同时具有长尾特征与噪声标签的图像分类问题。根据数据噪声特征,在计算样本函数间隔时引入样本依赖的松弛变量以放宽间隔约束,再根据样本间隔分类计算样本依赖的光滑松弛损失;根据数据长尾特征,实施分阶段调整的数据增强策略,对样本分别进行强增强和弱增强,并在正式训练阶段提供基于松弛损失的样本筛选机制用于筛除噪声数据。本发明实现方法简便,手段灵活,在长尾数据、噪声数据以及同时具有二者特征的训练数据上都取得显著的分类效果的提升。
-
-
-
-
-
-
-
-