一种基于多模态特征对齐的视觉定位方法

    公开(公告)号:CN117934803A

    公开(公告)日:2024-04-26

    申请号:CN202410126014.1

    申请日:2024-01-30

    Abstract: 本发明提供了一种基于多模态特征对齐的视觉定位方法。该方法包括:将图片和对应的指称表达输入到特征提取模块中,分别提取多尺度的网格特征和文本特征,利用Deformable DETR模型和网格特征生成区域特征;将文本特征、区域特征连接后输入到Transformer编码器中生成可学习token;将文本特征和网格特征通过缩放点积注意力操作得到多模态特征;根据多模态特征和可学习token进行目标分割掩码的预测处理,得到预测掩码并将其作为输入数据的视觉定位结果。本发明方法解决了网格特征缺乏对象级信息的问题,增强了特征表示,有效提升了在复杂查询或复杂图片场景下的分割性能。利用混合操作融合全局和局部特征,丰富了多模态特征,有效地实现语义对齐。

    一种基于模态交互网络的多模态单目标跟踪方法

    公开(公告)号:CN117911920A

    公开(公告)日:2024-04-19

    申请号:CN202410055599.2

    申请日:2024-01-15

    Abstract: 本发明提供了一种基于模态交互网络的多模态单目标跟踪方法。该方法包括:构建多模态跟踪网络架构,将训练数据集中的有标注的RGB视频序列以及对应的辅助模态视频序列作为多模态跟踪网络架构的输入数据,利用模态表示模块在不同模态间实现多尺度融合,利用联合特征处理模块对不同的模态进行特征提取融合处理,利用记忆查询模块建立当前目标特征和历史目标特征之间的长距离依赖关系,得到训练好的多模态跟踪网络架构;将待进行目标跟踪的有标注的RGB视频序列以及对应的辅助模态视频序列输入到训练好的多模态跟踪网络架构,本发明通过设计独特的多模态跟踪网络架构,通过模态间交互和融合,提取更具判别力的特征,增强跟踪过程中的稳定性和准确性。

    一种基于异构图网络的多目标跟踪方法

    公开(公告)号:CN112001252B

    公开(公告)日:2024-04-12

    申请号:CN202010712454.7

    申请日:2020-07-22

    Abstract: 本发明提供一种基于异构图网络的多目标跟踪方法,应用于多目标跟踪中。首先使用目标检测算法得到目标检测框,然后使用光流计算和线性回归操作进行视频帧之间的数据关联。为了解决目标遮挡问题,该模型在数据关联之后使用异构图网络提取检测框和跟踪目标的特征进行相似性度量,判断新出现的检测框是否属于已有的目标。异构图网络包括外观特征提取,空间关系提取和时间关系提取三部分,用于学习判别性特征,以进行目标的外观、空间位置及时间关系等信息的编码,提高特征的表示能力和判别能力,从而提高多目标跟踪的性能。

    行人重识别系统及方法
    14.
    发明授权

    公开(公告)号:CN109800710B

    公开(公告)日:2021-04-06

    申请号:CN201910049231.4

    申请日:2019-01-18

    Abstract: 本发明提供一种行人重识别系统及方法,属于行人重识别技术领域。该系统通过基于稀疏编码的深度学习网络对不同的原始图像进行图像重构,得到对应的重构矩阵;结合注意力机制提取各重构矩阵中的特征向量;计算所述特征向量的分类损失结果和验证损失结果;根据所述分类损失结果和所述验证损失结果判断特征提取模块是否收敛,若收敛,则计算不同重构矩阵的特征向量之间的差异度,若差异度大于设定的阈值,则不属于同一行人,若差异度小于设定的阈值,则属于同一行人。本发明使用重构子网络对图像进行重构以提高图像清晰度,使用多任务损失函数拉近相同个体之间的距离,从而提高了网络的特征表示能力和判别能力,提高行人重识别准确率。

    一种半监督视频目标分割方法

    公开(公告)号:CN111968123A

    公开(公告)日:2020-11-20

    申请号:CN202010885756.4

    申请日:2020-08-28

    Abstract: 本发明提供了一种半监督视频目标分割方法,包括:S1对视频图像进行预处理,得到当前帧的图像和第一帧的图像,并给定第一帧的分割图;S2构建半监督视频目标分割网络模型,半监督视频目标分割网络模型包括短时网络模块、长时网络模块、注意力门网络模块和上采样模块;S3将前一帧的图像,前一帧的分割结果图和当前帧的图像输入短时网络模块,得到当前帧的粗糙分割图和相对变化信息;将当前帧的图像、第一帧的图像、第一帧的分割图以及当前帧的粗糙分割图输入至长时网络模块,得到绝对变化信息;将相对变化信息以及绝对变化信息输入至注意力门网络,得到分割结果,最后通过上采样模块得到分割结果图。本方法可以提高分割性能和分割的速度。

    眼图抖动的分析方法
    17.
    发明公开

    公开(公告)号:CN106201949A

    公开(公告)日:2016-12-07

    申请号:CN201610519381.3

    申请日:2016-07-04

    Abstract: 本发明提供眼图抖动的分析方法,包括:采集一串中间无采集空白区的连续信号,生成连续信号对应的眼图;确定眼图的基准点;将眼图中的计算范围内的数据生成直方图;对直方图的数据进行归一化处理;从归一化后的直方图的左右两端分别遍历,分别确定归一化后的直方图的左尾部和右尾部;得到左尾部和右尾部对应的高斯分布的初始方差和初始均值;分别获取归一化后的直方图的左尾部和右尾部与连续信号的实际左尾部和实际右尾部之间的拟合度,并将拟合度的最小值所对应的均值、方差分别作为归一化后的直方图的左尾部和右尾部的最优均值和最优方差;生成左尾部和右尾部的实际均值、左尾部和右尾部的实际方差;确定随机性抖动;或者确定性抖动的峰峰值。

    基于在线半监督增量学习的图像分类方法及系统

    公开(公告)号:CN119863644A

    公开(公告)日:2025-04-22

    申请号:CN202411759640.0

    申请日:2024-12-03

    Abstract: 本发明提供了一种基于在线半监督增量学习的图像分类方法及系统,属于计算机视觉领域。所述方法获取线上新批次数据,并同步更新缓存区样本;同时获取此时特征提取模型的参数,作为第一模型参数;将新批次数据和缓存区样本进行数据增强得到双视图并进行特征提取,进行实例级别和伪标签级别的双对比学习,并更新模型参数作为第二模型参数;若为第一次双对比学习,从负样本中剔除置信度超过对应类别阈值的样本,将此时的模型参数作为第三模型参数;此后,通过费歇尔信息矩阵对三个模型参数加权后进行集成学习。本发明实现了对在线半监督数据流的高效增量学习,提高了半监督增量学习模型在线上数据流下学习的可塑性和稳定性,提高了图像分类的准确率。

    一种跨多目标域行人重识别方法

    公开(公告)号:CN111291705B

    公开(公告)日:2024-04-19

    申请号:CN202010111738.0

    申请日:2020-02-24

    Abstract: 本发明提供了一种跨多目标域行人重识别方法,首先使用分布对齐模型对源域、目标域的图片进行域对齐和场景对齐操作,从而使域对齐的图片和场景对齐的图片分布与目标域的图片分布一致,提高基于属性编码的行人重识别模型准确率;将域对齐图片的识别视为分类任务,将域对齐的图片结合对应的摄像头属性输入到基于属性编码的基于属性编码的行人重识别模型中,利用交叉熵损失优化模型参数,将场景对齐的识别视为度量任务,将场景对齐的图片结合摄像头属性输入到基于属性编码的基于属性编码的行人重识别模型中,利用难采样三元组损失优化模型参数。本发明中分布对齐模型和基于属性编码的基于属性编码的行人重识别模型单独训练,分别优化,进而提高行人重识别的准确率。

    一种基于反向注意力网络的单目标跟踪方法

    公开(公告)号:CN117853531A

    公开(公告)日:2024-04-09

    申请号:CN202410036684.4

    申请日:2024-01-10

    Abstract: 本发明提供了一种基于反向注意力网络的单目标跟踪方法。该方法包括:标记视频数据第一帧中的包含跟踪目标位置的边界框,将边界框图像区域作为模板图像,根据模板图像获取下一帧中的搜索域图像;将模板图像和搜索域图像输入到特征提取网络,特征提取网络将模板图像和搜索域图像从三通道彩色图像转化为多通道特征,输出模板特征和搜索域特征;将模板特征和搜索域特征输入堆叠的反向注意力模型,反向注意力模型输出优化后的模板特征和搜索域特征,预测分支根据优化后的模板特征和搜索域特征输出当前帧中的目标位置。本发明方法能够实现抑制模板和搜索域中非目标特征的目标,从而提高模型对目标特征的感知精度以及目标跟踪算法的准确度。

Patent Agency Ranking