-
公开(公告)号:CN115311504B
公开(公告)日:2023-01-31
申请号:CN202211236327.X
申请日:2022-10-10
Applicant: 之江实验室
IPC: G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于注意力重定位的弱监督定位方法和装置,将图像切分成图像块并线性投影映射成局部表征,利用网络中第一层至倒数第二层的transformer层的自注意力机制构建类别关联向量;对类别关联向量进行排序和积分图操作,构建重定位二值矩阵;构建掩码transformer层,局部表征输入掩码transformer层中获得分类权重向量;基于分类权重向量对局部表征实现加权和操作,将类别表征和加权和结果一并送入最后一层transformer层;训练过程中,对最后一层transformer层的输出类别表征和图像类别标签构建交叉熵损失函数,进行训练。测试过程中融合类别关联向量和分类权重向量,获得目标检测框信息,实现目标定位。相较于现有技术,本发明充分发挥transformer长程依赖能力,目标定位能力更优。
-
公开(公告)号:CN115063732B
公开(公告)日:2022-11-11
申请号:CN202210980578.2
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了基于双流多分辨率综合建模的动作视频分类方法和系统,包括以下步骤:步骤S1:从视频样本中构建高分辨率稀疏采样帧和低分辨率稠密采样帧两种网络输入;步骤S2:所提出的双流多分辨率建模网络包含两个分支,分别处理这两种输入;步骤S3:利用侧边连接进行特征融合,得到融合后的空域卷积特征;步骤S4:两个分支得到的视频卷积特征分别经过2D池化操作和3D池化操作进行时空对齐,并在加权融合后输入全连接层,得到各视频段的预测结果;步骤S5:将各视频段的预测结果均匀融合得到原始视频的分类结果,进行网络训练。本发明基于时空多层次建模思想,分别构建两种网络输入,这两种输入包含互补的空域表观和时域运动信息,且降低运算开销。
-
公开(公告)号:CN115063731A
公开(公告)日:2022-09-16
申请号:CN202210980577.8
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统,包括以下步骤:步骤S1:构建采样帧输入至主干网络;步骤S2:第一阶段段内运动信息建模,输出包含短时运动信息的视频卷积特征;步骤S3:第二阶段段间运动信息建模,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;步骤S4:经过全连接层后得到各视频段的分类结果并融合,训练网络。本发明利用卷积神经网络的多层次结构,在网络的较低层和较高层分别提取段内运动信息和段间运动信息,达到分阶段运动综合建模的目的。此外,本发明计算视频卷积特征各空间块之间的注意力关系,使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。
-
公开(公告)号:CN114494791B
公开(公告)日:2022-07-08
申请号:CN202210353591.5
申请日:2022-04-06
Applicant: 之江实验室
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于注意力选择的transformer运算精简方法,在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识,每间隔一定网络层,计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,重要性损失函数用于降低重要标识与不重要标识的关联。本发明方法从影响网络任务的判别性区域的选择角度出发,实现方法简单,有效减少网络计算量的同时,对模型精度影响很小,且可以与已知网络压缩方法同时使用,共同实现计算量压缩。
-
公开(公告)号:CN114494981A
公开(公告)日:2022-05-13
申请号:CN202210357179.0
申请日:2022-04-07
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多层次运动建模的动作视频分类方法及系统,对段内和段间的运动信息进行多层次综合建模,其包含两个神经网络分支:段间分支对各视频段中采样得到的视频帧进行处理,用于提取前景目标的表观信息和段间运动信息;段内分支对各视频段中相邻视频帧的差值进行处理,用于提取前景目标的段内运动信息。段内分支所提取的帧差特征被用来对段间分支特征进行按通道加权,最后两个分支的卷积特征融合起来并共同输入到分类器中进行视频分类。本发明实现方法简便,手段灵活,在动作视频数据集上取得了显著的分类效果提升。
-
公开(公告)号:CN117253177A
公开(公告)日:2023-12-19
申请号:CN202311545738.1
申请日:2023-11-20
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种动作视频分类方法、装置及介质,该方法将输入视频在空间上均匀分块,即令牌token,各块拉伸后得到的向量经过线性映射,得到第一视频特征;将第一视频特征输入编码模块中,得到第二视频特征;编码模块由若干个编码器组成;每个编码器由混合注意力及通道转移模块和多层感知机组成;混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作;混合注意力包括空间注意力、时间注意力和随机注意力;第二视频特征经过空间池化操作后,送入分类器中进行分类,并得到各视频帧的分类结果;然后再使用时域均匀聚合操作,得到输入视频的分类结果。本发明的混合注意力有效降低了注意力机制的运算开销,时间复杂度低。
-
公开(公告)号:CN116152575B
公开(公告)日:2023-07-21
申请号:CN202310410038.5
申请日:2023-04-18
Applicant: 之江实验室
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于类激活采样引导的弱监督目标定位方法、装置和介质,该方法首先构建训练集和测试集以及分类网络和交叉熵损失函数,实现分类网络的初步训练;然后获取原始图像、原始编码特征和原始类别概率,并根据原始编码特征生成类激活矩阵;再构建权重采样矩阵,并进行像素重采样,得到重采样图像和重采样特征以及重采样编码特征和重采样类别概率;然后构建一致性损失函数和重采样的交叉熵损失函数并进行训练,以获取最终训练好的分类网络;最后针对类激活矩阵构建阈值,以获取目标定位。本发明内容新颖,有效挖掘容易被忽略的目标次判别性区域,目标定位能力更优,能够解决仅包含图像属性分类标签情况下的弱监督目标定位问题。
-
公开(公告)号:CN116363372A
公开(公告)日:2023-06-30
申请号:CN202310636751.1
申请日:2023-06-01
Applicant: 之江实验室
IPC: G06V10/26 , G06V10/764 , G06N3/0464 , G06N3/0895
Abstract: 本申请涉及一种弱监督语义分割方法、装置、设备和存储介质,通过根据图像的编码特征生成类别概率,通过类别概率与类别标签构建第一损失函数;通过编码特征以及图像像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,根据不确定性分布数据构建第二损失函数;根据图像中对应于不同伪标签的多个像素集合,构建第三损失函数。根据第一损失函数、第二损失函数以及第三损失函数,生成总损失,根据总损失调节分类网络模型与分割网络模型的模型参数,并根据分类结果得到语义分割结果,针对伪标签的不确定性问题进行了优化,从而解决了图像语义分割的准确率较低的问题,提高了图像语义分割的准确率。
-
公开(公告)号:CN115311504A
公开(公告)日:2022-11-08
申请号:CN202211236327.X
申请日:2022-10-10
Applicant: 之江实验室
IPC: G06V10/764 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种基于注意力重定位的弱监督定位方法和装置,将图像切分成图像块并线性投影映射成局部表征,利用网络中第一层至倒数第二层的transformer层的自注意力机制构建类别关联向量;对类别关联向量进行排序和积分图操作,构建重定位二值矩阵;构建掩码transformer层,局部表征输入掩码transformer层中获得分类权重向量;基于分类权重向量对局部表征实现加权和操作,将类别表征和加权和结果一并送入最后一层transformer层;训练过程中,对最后一层transformer层的输出类别表征和图像类别标签构建交叉熵损失函数,进行训练。测试过程中融合类别关联向量和分类权重向量,获得目标检测框信息,实现目标定位。相较于现有技术,本发明充分发挥transformer长程依赖能力,目标定位能力更优。
-
公开(公告)号:CN115063732A
公开(公告)日:2022-09-16
申请号:CN202210980578.2
申请日:2022-08-16
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了基于双流多分辨率综合建模的动作视频分类方法和系统,包括以下步骤:步骤S1:从视频样本中构建高分辨率稀疏采样帧和低分辨率稠密采样帧两种网络输入;步骤S2:所提出的双流多分辨率建模网络包含两个分支,分别处理这两种输入;步骤S3:利用侧边连接进行特征融合,得到融合后的空域卷积特征;步骤S4:两个分支得到的视频卷积特征分别经过2D池化操作和3D池化操作进行时空对齐,并在加权融合后输入全连接层,得到各视频段的预测结果;步骤S5:将各视频段的预测结果均匀融合得到原始视频的分类结果,进行网络训练。本发明基于时空多层次建模思想,分别构建两种网络输入,这两种输入包含互补的空域表观和时域运动信息,且降低运算开销。
-
-
-
-
-
-
-
-
-