一种基于全局-局部感知动作目标生成视频描述的方法

    公开(公告)号:CN118609108A

    公开(公告)日:2024-09-06

    申请号:CN202410780273.6

    申请日:2024-06-17

    Inventor: 姚智洪 刘斌

    Abstract: 本发明公开了一种基于全局‑局部感知动作目标生成视频描述的方法,包括步骤:数据准备,给定一段视频,2D、3D‑CNN从视频中提取的多模态特征;区域特征的抽取,目标检测器从输入视频片段中提取局部区域特征;特征编码,组件提取编码器Cxe映射一个区域特征;特征解码,组件提取‑解码器Cxd然后生成词性标记,即主题、谓词、对象;最后,训练生成视频描述内容。本方法克服现孤立的视频帧可能会受到运动模糊或遮挡的影响的问题,提升了视觉特征到语义特征转化准确性,最大程度产生最优的视频字幕描述,更精准的描述动作行为。

    一种基于特征强化和融合的视频描述方法

    公开(公告)号:CN118609028A

    公开(公告)日:2024-09-06

    申请号:CN202410780291.4

    申请日:2024-06-17

    Inventor: 黄玉婷 刘斌

    Abstract: 本文提供了一种基于特征强化和融合的视频描述方法,包括步骤:多模态特征提取,提取外观特征、运动特征和对象特征;语义特征提取,外观特征和运动特征串联输入到语义检测器提取语义特征;特征增强,利用局部和全局特征为模型提供正确的细节引导,放大相似物体的特征差异,提高目标主体编码特征的准确性;多模态特征融合,以外观特征为引导,筛选运动特征和对象特征中与内容更相关的视觉信息,并对特征进行融合,形成统一的多模态融合特征;特征解码,利用Transformer模型的解码器部分对编码进行解码;最后,生成视频描述内容。与现有的视频描述方法相比,通过特征增强,使得视频重点区域特征的定位识别更精确;同时通过跨模态融合网络,提升解码器的语义解码准确度,使得生成的视频描述更加准确。

    基于多尺度特征的融合技术的图像分类方法

    公开(公告)号:CN118608859A

    公开(公告)日:2024-09-06

    申请号:CN202410780275.5

    申请日:2024-06-17

    Inventor: 张伟 刘斌

    Abstract: 一种基于多尺度特征的融合技术的图像分类方法。本发明公开了一种基于多尺度特征的融合技术的图像分类方法,包括如下步骤:将图像输入到特征提取网络PVTv2中,会在四个Stage上输出四个特征层,低层的细节信息丰富,而高层的语义信息丰富;将不同特征层分别输入残差注意力模块使网络选取感兴趣的特征通道和特征区域;将特征图分块后线性映射成嵌入向量并输入到FFT Block中进行特征融合。本发明从多尺度特征和多信息融合方面出发,有效提高了卷积神经网络图像分类器的分类性能。

    一种基于Transformer模型进行语义分割的方法

    公开(公告)号:CN118608787A

    公开(公告)日:2024-09-06

    申请号:CN202410780285.9

    申请日:2024-06-17

    Inventor: 夏冰 刘斌

    Abstract: 本文提供了一种基于Transformer模型进行语义分割的方法,包括步骤:数据准备,进行图像序列化以将输入图像X转换为特征嵌入;特征提取,向第一层Transformer输入数据,每个Transformer层由多头注意力、层归一化、MLP层构成;特征解码,将提取出的特征序列作为输入,经过一个交叉注意力的解码器结构,通过使用交叉注意模块,两者经过交叉注意力的解码器后能获得学习好的特征向量;生成分割结果,将充当解码器的交叉注意力模块输出的新的特征向量送入分割层预测得到最终的分割结果。与现有的大多数基于FCN模型的语义分割模型相比,以Transformer编码器进行语义分割任务的特征提取工作,可以很大程度上增强模型对远程依赖信息的学习;以交叉注意力模块充当解码器,能够让模型更加高效高质量地进行全局上下文信息的提取,提升了语义分割模型的准确性与分割质量。

    一种基于文本的图像字幕任务的多模态transformer模型

    公开(公告)号:CN117475441A

    公开(公告)日:2024-01-30

    申请号:CN202311459531.2

    申请日:2023-11-03

    Inventor: 王文姣 刘斌

    Abstract: 本发明公开了一种基于文本的图像字幕任务的多模态transformer模型,提出在特征提取阶段,将空间关系升级到包含了高度和宽度关系、位置关系、IoU关系以及相对角度关系的更强的几何关系,改进了之前的仅依靠候选框来编码空间关系向量。通过共同嵌入视觉对象和OCR令牌的视觉特征、语义特征和几何关系特征,增强了先前模型中的特征向量以及对象间的空间联系。此外,通过在生成模块添加掩码模块,降低预测标题的冗余。

    基于双重类别级对抗网络的图像语义分割方法

    公开(公告)号:CN114612658A

    公开(公告)日:2022-06-10

    申请号:CN202210172502.7

    申请日:2022-02-24

    Inventor: 琚艳 刘斌

    Abstract: 本发明公开了一种基于双重类别级对抗网络的图像语义分割方法,属于深度学习技术领域。包括以下步骤:首先,利用类别级对抗网络基于局部语义类别一致性的思想,兼顾源域和目标域的边缘分布对齐和条件分布对齐,使得源域和目标域进行协同训练,根据不同的对齐效果来调整相应对抗损失的权重;其次,通过计算目标预测的信息熵值确定目标图像的置信水平,依据熵值大小将目标域划分为集合一和集合二;最后,利用集合一及其预测图作为伪标签,再次使用CLAN模型训练集合二图像,以减少域内差异,从而有效提升不同数据集间的自适应水平,提高算法的泛化性能。本发明基于多个数据集进行实验,验证了该方法的可行性,能够有效提高语义分割效率。

    一种半监督的零样本语义分割方法

    公开(公告)号:CN119649023A

    公开(公告)日:2025-03-18

    申请号:CN202411686461.9

    申请日:2024-11-22

    Inventor: 夏冰 刘斌

    Abstract: 本文提供了一种半监督的零样本语义分割的方法,所提出的方法共包含4个神经网络模型,分别是ViT(Vision Transformer)编码器、预训练图像编码器、像素级解码器和Transformer解码器。同时,该方法由两个模块组成:自监督生成掩码模块和语义分割解码器的预训练模块。包括步骤:数据准备,进行图像序列化以将输入图像X转换为特征嵌入;掩码特征提取,向第一层Transformer输入数据,每个Transformer层由多头注意力、层归一化、前馈网络层构成;接着将特征再而分别输入到Transformer解码器和像素级解码器中,对各输出特征做矩阵乘积来进行N个掩码的预测并完成匹配,得到分割结果。此外,解码器也需要学习具体的图像语义信息。该发明使用了自监督对比学习将正样本和负样本的特征进行对比,增加正样本之间的相似度,降低负样本和正样本之间的相似度。

    基于双重类别级对抗网络的图像语义分割方法

    公开(公告)号:CN114612658B

    公开(公告)日:2024-11-05

    申请号:CN202210172502.7

    申请日:2022-02-24

    Inventor: 琚艳 刘斌

    Abstract: 本发明公开了一种基于双重类别级对抗网络的图像语义分割方法,属于深度学习技术领域。包括以下步骤:首先,利用类别级对抗网络基于局部语义类别一致性的思想,兼顾源域和目标域的边缘分布对齐和条件分布对齐,使得源域和目标域进行协同训练,根据不同的对齐效果来调整相应对抗损失的权重;其次,通过计算目标预测的信息熵值确定目标图像的置信水平,依据熵值大小将目标域划分为集合一和集合二;最后,利用集合一及其预测图作为伪标签,再次使用CLAN模型训练集合二图像,以减少域内差异,从而有效提升不同数据集间的自适应水平,提高算法的泛化性能。本发明基于多个数据集进行实验,验证了该方法的可行性,能够有效提高语义分割效率。

    一种基于Transformer网络生成视频描述的方法

    公开(公告)号:CN117376504A

    公开(公告)日:2024-01-09

    申请号:CN202311459369.4

    申请日:2023-11-03

    Inventor: 王浩帆 刘斌

    Abstract: 本文提供了一种基于transformer网络生成视频描述的方法,包括步骤:视频帧抽取,利用LPIPS相似度分数进行视频帧的抽取;特征提取,使用ResNet‑152网络来提取视频帧图像特征,使用I3D网络来提取视频帧的动作特征;特征编码,利用transformer网络对图像特征和动作特征分别进行编码得到视觉信息编码;语义网络,通过语义网络模块由视觉信息编码得到语义信息编码;特征解码,利用Transformer模型的解码器部分对语义信息编码和视觉信息编码进行解码;最后,生成视频描述内容。与现有的使用了transformer网络的视频描述方法相比,通过减少抽帧,来减少计算量的同时保留了完整的视觉信息;同时通过语义网络让语义信息编码作为解码器的输入,提升了解码器的语义解码准确度。

Patent Agency Ranking