基于无监督学习的行人再识别方法及系统

    公开(公告)号:CN113255394B

    公开(公告)日:2025-02-07

    申请号:CN202010082628.6

    申请日:2020-02-07

    Applicant: 清华大学

    Inventor: 王重道 王生进

    Abstract: 本发明实施例提供了一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。

    一种稀疏光场重建方法及装置

    公开(公告)号:CN113129352B

    公开(公告)日:2024-07-26

    申请号:CN202110485198.7

    申请日:2021-04-30

    Applicant: 清华大学

    Abstract: 本发明实施例公开了一种稀疏光场重建方法,包括:根据稀疏光场信息中的二维图像的特征相似性提取目标物体的初始轮廓;建立目标物体与动态三维场景之间的映射关系;映射关系包括至少一个局部映射关系;局部映射关系表征目标物体一个表面与动态三维场景之间的映射关系;根据映射关系计算目标物体每个表面的几何信息与色彩信息;根据目标物体各表面的几何信息与色彩信息建立目标物体的大场景全局表面模型与三维图像。本发明实施例提供的稀疏光场重建方法,通过构建并求解目标物体表面与动态三维场景之间的映射关系,利用稀疏视角的二维图像数据实现了对目标物体的大场景全局表面模型与三维图像的重建,降低了对三维几何标注数据的依赖和存储复杂度,并提高了光场重建精度与效率。

    一种基于多模板提示学习的视觉分类方法和装置

    公开(公告)号:CN116416480B

    公开(公告)日:2023-08-25

    申请号:CN202310680502.2

    申请日:2023-06-09

    Applicant: 清华大学

    Inventor: 杨舒 王生进

    Abstract: 本发明提供一种基于多模板提示学习的视觉分类方法和装置,涉及机器学习技术领域,包括:利用候选文本集生成多个提示模板下的候选文本集;将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中,得到视频在每一个提示模板下的类别概率分布;利用所述类别概率分布,确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型,提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率,进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。

    基于Transformer的两步式领域自适应行人再识别方法

    公开(公告)号:CN115497120A

    公开(公告)日:2022-12-20

    申请号:CN202211166187.3

    申请日:2022-09-23

    Inventor: 余盛铭 王生进

    Abstract: 本发明公开了基于Transformer的两步式领域自适应行人再识别方法,属于行人再识别技术领域,具体包括:将源域图像预处理并添加class token;构建Transformer识别模型,将所述源域图像和class token编码后输入Transformer识别模型,提取源域图像中的行人特征,并反向传播更新模型;获取目标域图像,将目标域图像进预处理并添加class token;将class token作为域指示器,固定模型中除class token以外的参数,将目标域图像编码后输入Transformer识别模型,提取目标域图像中的行人特征,并反向传播更新模型;开放模型中所有参数,将经过过滤的目标域图像输入Transformer识别模型,提取目标域图像的行人特征,并反向传播更新模型;本发明将Transformer应用到领域自适应行人再识别中,提升了识别模型的性能。

    基于半监督学习的行人再识别方法及装置

    公开(公告)号:CN111563424B

    公开(公告)日:2022-08-30

    申请号:CN202010314162.8

    申请日:2020-04-20

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种基于半监督学习的行人再识别方法及装置,该方法包括:将多个已标注的有标签图像序列,输入预设的行人再识别模型,进行初步训练;从多个无标签的图像序列中,选取置信度满足预设条件的图像序列,对于每一选取的图像序列,将特征空间中最邻近的有标签图像序列的标签作为伪标签,从而得到多个选取图像序列构成的支持集;将支持集中的图像序列,输入预设的行人再识别模型进行再次训练;基于再次训练得到的模型进行行人再识别。该方法有效解决了实际场景下有标签序列不足、标注困难的问题。在仅有少量的标注序列的前提下,通过对易得的无标签序列生成伪标签,从而得到大量准确度高的训练样本。

    基于无监督学习的行人再识别方法及系统

    公开(公告)号:CN113255394A

    公开(公告)日:2021-08-13

    申请号:CN202010082628.6

    申请日:2020-02-07

    Applicant: 清华大学

    Inventor: 王重道 王生进

    Abstract: 本发明实施例提供了一种基于无监督学习的行人再识别方法及系统,首先获取包含有若干行人的两个待识别视频帧;然后将两个待识别视频帧输入至行人再识别模型,由行人再识别模型确定两个待识别视频帧中是否包含有同一行人。本发明实施例中采用的行人再识别模型基于深度卷积神经网络构建,且对行人再识别模型进行训练时,确定包含有若干行人的两个样本视频帧之间行人的循环分配矩阵,基于循环分配矩阵,确定优化损失函数。整个训练过程中并不需要任何额外算法模块或间接的监督信号,如行人跟踪模块或聚类算法等,可以直接从无标注的样本视频帧中学习行人特征,实现行人再识别,简化了行人再识别模型的整个训练过程,且使得行人再识别的准确性更高。

Patent Agency Ranking