-
公开(公告)号:CN116363418A
公开(公告)日:2023-06-30
申请号:CN202310240413.6
申请日:2023-03-06
IPC: G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本说明书公开了一种训练分类模型的方法、装置、存储介质及电子设备。本方法通过确定各子网络层对应的输入维度中的无效维度,确定了对分类模型的输出结果无效的各子网络层对应的无效维度上各计算节点输出的结果,根据这些输出的结果确定第一损失,根据基于训练样本标注确定的第二损失以及该第一损失,确定总损失,以总损失最小训练分类模型,减少了各子网络层对应的无效维度上各计算节点输出的结果对分类模型的输出结果的影响,提高了分类模型的分类准确性。
-
公开(公告)号:CN115829005A
公开(公告)日:2023-03-21
申请号:CN202211580737.6
申请日:2022-12-09
Applicant: 之江实验室
IPC: G06N3/0464 , G06N3/08 , G06F18/24 , G06V10/82 , G06V10/764
Abstract: 本发明面向卷积神经分类网络的缺陷自动诊断与修复方法及装置,包括下列步骤:1)卷积神经分类网络预测重要性归一化;2)激活图重要性得分计算;3)正常样本激活图规律统计;4)分类错误样本激活图筛选;5)卷积神经分类网络自动化缺陷修复。本发明设计的是一种面向卷积神经分类网络的全自动缺陷诊断与修复方法,用于已经预训练的卷积神经分类网络模型缺陷检测与自动修复,能够有效提升深度卷积神经分类网络模型的分类性能。
-
公开(公告)号:CN115063732B
公开(公告)日:2022-11-11
申请号:CN202210980578.2
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了基于双流多分辨率综合建模的动作视频分类方法和系统,包括以下步骤:步骤S1:从视频样本中构建高分辨率稀疏采样帧和低分辨率稠密采样帧两种网络输入;步骤S2:所提出的双流多分辨率建模网络包含两个分支,分别处理这两种输入;步骤S3:利用侧边连接进行特征融合,得到融合后的空域卷积特征;步骤S4:两个分支得到的视频卷积特征分别经过2D池化操作和3D池化操作进行时空对齐,并在加权融合后输入全连接层,得到各视频段的预测结果;步骤S5:将各视频段的预测结果均匀融合得到原始视频的分类结果,进行网络训练。本发明基于时空多层次建模思想,分别构建两种网络输入,这两种输入包含互补的空域表观和时域运动信息,且降低运算开销。
-
公开(公告)号:CN115063731A
公开(公告)日:2022-09-16
申请号:CN202210980577.8
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统,包括以下步骤:步骤S1:构建采样帧输入至主干网络;步骤S2:第一阶段段内运动信息建模,输出包含短时运动信息的视频卷积特征;步骤S3:第二阶段段间运动信息建模,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;步骤S4:经过全连接层后得到各视频段的分类结果并融合,训练网络。本发明利用卷积神经网络的多层次结构,在网络的较低层和较高层分别提取段内运动信息和段间运动信息,达到分阶段运动综合建模的目的。此外,本发明计算视频卷积特征各空间块之间的注意力关系,使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。
-
公开(公告)号:CN114494791B
公开(公告)日:2022-07-08
申请号:CN202210353591.5
申请日:2022-04-06
Applicant: 之江实验室
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于注意力选择的transformer运算精简方法,在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识,每间隔一定网络层,计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,重要性损失函数用于降低重要标识与不重要标识的关联。本发明方法从影响网络任务的判别性区域的选择角度出发,实现方法简单,有效减少网络计算量的同时,对模型精度影响很小,且可以与已知网络压缩方法同时使用,共同实现计算量压缩。
-
公开(公告)号:CN114494981A
公开(公告)日:2022-05-13
申请号:CN202210357179.0
申请日:2022-04-07
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多层次运动建模的动作视频分类方法及系统,对段内和段间的运动信息进行多层次综合建模,其包含两个神经网络分支:段间分支对各视频段中采样得到的视频帧进行处理,用于提取前景目标的表观信息和段间运动信息;段内分支对各视频段中相邻视频帧的差值进行处理,用于提取前景目标的段内运动信息。段内分支所提取的帧差特征被用来对段间分支特征进行按通道加权,最后两个分支的卷积特征融合起来并共同输入到分类器中进行视频分类。本发明实现方法简便,手段灵活,在动作视频数据集上取得了显著的分类效果提升。
-
公开(公告)号:CN112801162A
公开(公告)日:2021-05-14
申请号:CN202110088346.1
申请日:2021-01-22
Applicant: 之江实验室
Abstract: 本发明公开了一种基于图像属性先验的自适应软标签正则化方法,包括如下步骤:S1,通过神经网络中间特征层聚合构建图像的属性表达;S2,利用重参数化方法对属性概率先验进行软采样;S3,利用现有真值标签对采样软标签进行修正和截断;S4,多尺度属性先验正则化。通过模仿人眼进行图像分类是依据图像局部属性重要性的能力,在利用少量参数的情况下,有效地缓解在图像分类任务中由于方法模型对于结果的过于自信导致的过拟合问题,有效的提升图像分类的准确性。本发明实现方法简单,手段灵活,可以比较容易地应用到一般性图像分类任务中。
-
公开(公告)号:CN117292209B
公开(公告)日:2024-04-05
申请号:CN202311585233.8
申请日:2023-11-27
Applicant: 之江实验室
IPC: G06V10/764 , G06V20/40
Abstract: 本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸、线性映射和叠加位置嵌入向量,得到第一视频特征;将第一视频特征经过Transformer网络进行处理,得到第二视频特征;每层网络均包含时空增强三维注意力模块和多层感知机;时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支,自适应地增强具有时空关联的令牌之间的依赖关系,推理时计算等价地退化为三维注意力操作,以降低推理开销;将第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,再经过时域平均池化操作,得到视频的类别预测结果。
-
公开(公告)号:CN115908955A
公开(公告)日:2023-04-04
申请号:CN202310202396.7
申请日:2023-03-06
Applicant: 之江实验室
IPC: G06V10/764 , G06V10/774 , G06V10/778 , G06V40/10
Abstract: 本发明公开了基于梯度蒸馏的少样本学习的鸟类分类系统、方法与装置,通过构建鸟类图像分类数据集;在训练阶段,从鸟类图像分类数据集抽取支撑集s和预测集q,经教师网络后,分别输出的特征向量进行匹配,得到预测集q的类别预测结果,并利用所述预测结果与预测集q的类别真值构建教师网络交叉熵损失函数,训练教师网络;获取鸟类图像经过教师网络、学生网络各个网络层的特征,并利用各层特征的和,作为损失值反向传播,得到输入的鸟类图像基于损失值的梯度信息,构建梯度损失函数,使教师网络和学生网络输入的鸟类图像的梯度信息相匹配;梯度损失函数叠加学生网络交叉熵损失函数,训练学生网络,用于鸟类图像分类。
-
公开(公告)号:CN115238130A
公开(公告)日:2022-10-25
申请号:CN202211149191.9
申请日:2022-09-21
Applicant: 之江实验室
IPC: G06F16/783 , G06F40/30 , G06N3/04 , G06N3/08 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 本发明公开了基于模态定制协同注意力交互的时序语言定位方法及装置,包括以下步骤:步骤S1:构建数据集;步骤S2:提取视频表征;步骤S3:得到多粒度查询表征Q;步骤S4:获取已语义对齐视频表征;步骤S5:获得每一帧处的目标片段时序边界回归值、语义匹配分数和时序交并比回归值;步骤S6:得到训练好的基于模态定制协同注意力交互的时序语言定位模型;步骤S7:测试,得到时序语言定位结果。本发明将配备协同注意力的Transformer架构用于时序语言定位任务,并设计了一种模态定制的双流协同注意力交互层,用于并行的视频流的多粒度协同注意力交互和查询流的标准协同注意力交互,本发明方法实现简单,手段灵活,可显著提升时序语言定位任务性能。
-
-
-
-
-
-
-
-
-