-
公开(公告)号:CN116416480A
公开(公告)日:2023-07-11
申请号:CN202310680502.2
申请日:2023-06-09
申请人: 清华大学
IPC分类号: G06V10/764 , G06V10/80 , G06V10/82 , G06V10/774 , G06N3/0895 , G06N3/09
摘要: 本发明提供一种基于多模板提示学习的视觉分类方法和装置,涉及机器学习技术领域,包括:利用候选文本集生成多个提示模板下的候选文本集;将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中,得到视频在每一个提示模板下的类别概率分布;利用所述类别概率分布,确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型,提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率,进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。
-
公开(公告)号:CN113762241A
公开(公告)日:2021-12-07
申请号:CN202111028327.6
申请日:2021-09-02
申请人: 清华大学
摘要: 本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括:获取样本图像;将样本图像输入场景文字识别模型,得到样本图像对应的预测文字和文字几何形状信息的预测特征图;根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图,计算总损失函数,并利用总损失函数最小化调整场景文字识别模型的参数,得到满足收敛条件的场景文字识别模型;其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。
-
公开(公告)号:CN113129352A
公开(公告)日:2021-07-16
申请号:CN202110485198.7
申请日:2021-04-30
申请人: 清华大学
IPC分类号: G06T7/557
摘要: 本发明实施例公开了一种稀疏光场重建方法,包括:根据稀疏光场信息中的二维图像的特征相似性提取目标物体的初始轮廓;建立目标物体与动态三维场景之间的映射关系;映射关系包括至少一个局部映射关系;局部映射关系表征目标物体一个表面与动态三维场景之间的映射关系;根据映射关系计算目标物体每个表面的几何信息与色彩信息;根据目标物体各表面的几何信息与色彩信息建立目标物体的大场景全局表面模型与三维图像。本发明实施例提供的稀疏光场重建方法,通过构建并求解目标物体表面与动态三维场景之间的映射关系,利用稀疏视角的二维图像数据实现了对目标物体的大场景全局表面模型与三维图像的重建,降低了对三维几何标注数据的依赖和存储复杂度,并提高了光场重建精度与效率。
-
公开(公告)号:CN108898168B
公开(公告)日:2021-06-01
申请号:CN201810628418.5
申请日:2018-06-19
申请人: 清华大学
摘要: 本发明实施例提供用于目标检测的卷积神经网络模型的压缩方法和系统。其中,方法包括:获取未经训练的用于目标检测的卷积神经网络模型,并将卷积神经网络模型中的特征提取网络的网络结构进行简化,获取简化网络;根据知识蒸馏方法对网络结构简化前后的特征提取网络进行联合训练,确定简化网络的参数;将卷积神经网络模型中的特征提取网络替换为确定参数后的简化网络,并根据样本图像对卷积神经网络模型进行训练,获取压缩后的用于目标检测的卷积神经网络模型。本发明实施例提供的用于目标检测的卷积神经网络模型的压缩方法和系统,具有较高的准确率并能减少模型的参数,使得压缩后的模型能运行于计算资源受限的平台上。
-
公开(公告)号:CN112446385B
公开(公告)日:2021-04-30
申请号:CN202110125033.9
申请日:2021-01-29
申请人: 清华大学
摘要: 本发明公开了一种场景语义分割方法、装置、电子设备,该方法包括:如果场景原始点云对应体素块的粒度大于粒度阈值,则根据所述体素块特征和原始点云特征,得到下一分割点云;如果所述有效体素块细分后下一体素块粒度小于等于所述粒度阈值,则根据所述下一分割点云添加语义标签作为场景语义分割结果;如果所述有效体素块细分后下一体素块粒度大于所述粒度阈值,则根据所述下一体素块特征和下一分割点云特征,得到新下一分割点云;直至所述有效体素块细分后的新下一体素块的粒度小于等于所述粒度阈值,则将所述新下一分割点云添加语义标签作为场景语义分割结果。本发明实施例在场景不同粒度下有足够上下文信息进行整合,减少计算复杂度。
-
公开(公告)号:CN109871792B
公开(公告)日:2020-12-29
申请号:CN201910099888.1
申请日:2019-01-31
申请人: 清华大学
摘要: 本发明实施例提供一种行人检测方法和装置。其中,方法包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。本发明实施例提供的行人检测方法和装置,能在保证高检测速度的前提下,提高检测准确性。
-
公开(公告)号:CN107545263B
公开(公告)日:2020-12-15
申请号:CN201710652233.3
申请日:2017-08-02
申请人: 清华大学
摘要: 本发明实施例提供一种物体检测方法及装置,所述方法包括:接收样本图片,训练所述样本图片并标注所述样本图片中各个感兴趣物体的轴对齐矩形边框位置,获得所述样本图片的图片特征图;通过对所述图片特征图进行预设的卷积操作和预设的反卷积操作,获得与所述样本图片的尺寸大小一致的输出特征图;通过将图像复原L2损失函数、窗口分类Softmax损失函数和窗口校正平滑L1损失函数三种损失函数线性加和训练网络,获得目标训练网络;输入所述输出特征图到所述目标训练网络,获得初始检测结果,对所述初始检测结果进行非极大值抑制,获得所述样本图片中各个感兴趣物体的检测结果。本发明实施例实现了对图片中物体的检测识别率的提高,并尽可能地检测到图片中具有不同尺寸的目标,特别是小尺寸目标。
-
公开(公告)号:CN109871792A
公开(公告)日:2019-06-11
申请号:CN201910099888.1
申请日:2019-01-31
申请人: 清华大学
摘要: 本发明实施例提供一种行人检测方法和装置。其中,方法包括:将待检测图片输入至行人检测模型中的区域提取层,输出若干个候选框;将若干个候选框输入至行人检测模型中的特征提取层,输出每一候选框的特征;将各候选框的特征输入至行人检测模型中的判别预测层,输出行人检测结果;其中,行人检测模型是根据样本图片进行训练后获得的;若干个候选框是根据待检测图片多层次的增强特征图获得的;多层次的增强特征图是对待检测图片多层次的原始特征图进行特征增强后获得的;多层次的原始特征图是根据层次化特征提取方法对待检测图片进行预处理后获得的。本发明实施例提供的行人检测方法和装置,能在保证高检测速度的前提下,提高检测准确性。
-
公开(公告)号:CN106529442A
公开(公告)日:2017-03-22
申请号:CN201610949687.2
申请日:2016-10-26
申请人: 清华大学
摘要: 本发明提供一种行人识别方法和装置,其中该方法包括:根据图像中的行人位置,标定行人区域,分离单独的行人图像;根据行人区域和单独的行人图像,标定行人数据集,将行人图像对应于行人体型;根据行人图像,基于卷积神经网络分析获取行人的属性特征。本发明通过行人图像的体型判断,利用基于深度学习的多任务卷积神经网络,在离线训练过程中针对不同性别、不同的行人视角训练一个统一的体型判断模型,有效的解决行人视角的问题,提高了算法准确度。
-
公开(公告)号:CN103116748B
公开(公告)日:2016-03-23
申请号:CN201310077048.8
申请日:2013-03-11
申请人: 清华大学
IPC分类号: G06K9/00
摘要: 本发明提出一种基于路面标识识别违规驾驶行为的方法及系统。其中,方法包括以下步骤:获取车辆行驶的道路图像,并对道路图像进行预处理以生成道路图像的二值化图像;根据二值化图像中的白像素点确定道路的边界以生成道路边界线;从道路图像中检测与道路边界线对应的道路线之间是否有引导标识,其中,引导标识包括公交专用标识和方向标识;以及当引导标识为方向标识时,根据方向标识和车辆状态信息判断车辆是否违规行驶。根据本发明实施例的方法,通过生成道路图像的二值化图像,并在该二值化图像中判别引导标识识别驾驶是否规范,提前预防了交通事故的发生,进而提高了驾驶的安全性。
-
-
-
-
-
-
-
-
-