-
公开(公告)号:CN116309698B
公开(公告)日:2024-06-11
申请号:CN202310038906.1
申请日:2023-01-11
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06T7/246 , G06T5/00 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于运动特征弥补引导的多帧光流估计方法,包括以下步骤:提取至少连续两帧的输入图像的图像特征;基于相邻两帧的输入图像的图像特征,采用运动编码器得到初始运动特征;将初始运动特征和历史集成特征输入至MFC单元,所述MFC单元通过交叉注意力得到增强运动特征,并与初始运动特征合并得到集成特征;将所述集成特征输入至迭代模块进行迭代计算,得到最终光流。本发明可以大大改进光流估计在遮挡区域的性能。
-
公开(公告)号:CN118038133A
公开(公告)日:2024-05-14
申请号:CN202410067260.4
申请日:2024-01-17
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V10/764 , G06V10/40 , G06V10/774 , G06V10/80 , G06N3/0464
Abstract: 本发明涉及一种基于多层级分类分支的目标检测方法及系统。其中的目标检测方法包括以下步骤:获取待测样本;利用基于多层级分类分支的目标检测模型对所述待测样本进行检测,获得目标检测结果;所述基于多层级分类分支的目标检测模型包括:特征提取模块,用来提取所述待测样本的特征向量;特征融合模块,用来对所述特征向量进行特征融合获得融合特征向量;预测模块,用来根据所述融合特征向量生成目标检测框和与所述目标检测框对应的多个层级的分类结果,并将所述多个层级的分类结果进行融合计算得到最终分类结果。在现有深度学习的目标检测网络的基础上,通过增加多层级分类分支预测结果的融合计算,有效提升其分类及识别能力。
-
公开(公告)号:CN114882091B
公开(公告)日:2024-02-13
申请号:CN202210476348.2
申请日:2022-04-29
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 分类模块用于进行深度边缘语义分类预测;所述本发明涉及一种结合语义边缘的深度估计 语义边缘检测模块用于输出图像的语义边缘分方法,包括:获取待深度估计的图像;将所述图像 类预测。本发明能够提高准确度。输入至训练好的深度学习网络中得到深度预测图和语义边缘预测图;所述深度学习网络包括:共享特征提取模块、深度估计模块、边缘增强权重模块、深度边缘语义分类模块和语义边缘检测模块;所述共享特征提取模块用于提取所述图像中的特征信息,并传输给所述深度估计模块和语义边缘检测模块;所述深度估计模块通过所述语义边缘检测模块输出的语义边缘引导视差平滑,并通过图像双重构的方式进行深度估计;所述边缘增强权重模块基于所述深度估计模块输出的(56)对比文件Jing Liu 等.CollaborativeDeconvolutional Neural Networks for JointDepth Estimation and SemanticSegmentation《.IEEE TRANSACTIONS ON NEURALNETWORKS AND LEARNING SYSTEMS》.2018,第第29卷卷(第第11期期),5655-5666.
-
公开(公告)号:CN117011925A
公开(公告)日:2023-11-07
申请号:CN202310814418.5
申请日:2023-07-05
Applicant: 上海大学 , 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种基于注意力机制和深度先验的注视点检测方法,包括:对场景图中的头部图像进行特征提取得到视线特征,根据视线特征预测出注视方向,并根据注视方向进行编码生成注视场;将场景图、场景深度图和注视场输入至以ResNet网络为骨干的特征金字塔网络,得到视线区域定位注视区域的显著物体。本发明能够提高注视点检测的精度。
-
公开(公告)号:CN115116123A
公开(公告)日:2022-09-27
申请号:CN202210497450.0
申请日:2022-05-09
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V40/18 , G06V10/26 , G06V10/774 , G06V10/82 , G06V10/764 , G06N3/08
Abstract: 本发明涉及一种基于迭代学习的半监督人眼多要素分割方法,包括以下步骤:将可见光下眼部数据集划分为有标签眼部数据集和无标签眼部数据集;基于有标签眼部数据集利用有监督深度学习网络进行训练,得到预训练模型;基于预训练模型通过前向推理获取无标签眼部数据集的伪标签;基于有标签眼部数据集对无标签眼部数据集和伪标签进行筛选,得到信任数据集;将有标签眼部数据集和信任数据集输入至有监督深度学习网络进行再训练,若未达到训练完成要求,则返回上述的伪标签获取步骤,否则结束训练得到人眼分割模型;采用人眼分割模型对人眼进行多要素分割。本发明能够在使用少量标签数据的情况下,提升模型的精度和鲁棒性。
-
公开(公告)号:CN114998411A
公开(公告)日:2022-09-02
申请号:CN202210475411.0
申请日:2022-04-29
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种结合时空增强光度损失的自监督单目深度估计方法和装置,其中,方法包括:获取图像序列中相邻的若干帧图像;将所述图像输入至训练好的深度学习网络中得到深度信息和位姿信息,其中,所述深度学习网络的光度损失信息基于深度感知像素对应关系的空间变换模型得到,并利用全向自动掩膜来避免运动物体的像素参与光度误差的计算。本发明能够提高光度损失的准确性,进而更好的监督深度网络的学习。
-
公开(公告)号:CN111192265A
公开(公告)日:2020-05-22
申请号:CN201911360880.2
申请日:2019-12-25
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本申请公开了一种基于点云的语义实例确定方法、装置、电子设备及存储介质,所述方法包括:将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例,可以降低稀疏区域的点云分割的错误率。
-
公开(公告)号:CN118334389A
公开(公告)日:2024-07-12
申请号:CN202410497467.5
申请日:2024-04-24
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V10/75 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于频域自适应滤波优化的鲁棒立体匹配方法和装置,方法包括:获取双目图像;将获取的双目图像输入至立体匹配模型中,完成像素点的匹配得到视差图;立体匹配模型包括:特征提取网络,用于提取双目图像的特征,得到左图特征和右图特征;自适应滤波模块,用于将左图特征和右图特征转换到频域,并对左图特征和右图特征进行自适应滤波,并将滤波后的左图特征和右图特征重新变换到空间域完成代价体构建;频率补偿模块,用于对左图频域特征进行频率补偿,并与代价体聚合后的聚合特征进行融合,得到融合特征;视差预测模块,用于根据融合特征进行视差预测,完成像素点的匹配得到视差图。本发明能够提升立体匹配模型对校正误差的鲁棒性。
-
公开(公告)号:CN117911477A
公开(公告)日:2024-04-19
申请号:CN202311550536.6
申请日:2023-11-21
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06T7/50 , G06T5/70 , G06T3/08 , G06N3/0464 , G06N3/088 , G06N3/0455
Abstract: 本发明涉及一种基于扩散模型的单目深度估计与视觉里程计方法,包括:接收目标图像和源图像;将目标图像和源图像输入至预测模型中,得到目标图像的深度图以及目标图像和源图像之间的相对位姿;其中,预测模型中的基于扩散模型的深度预测网络包括:特征提取部分,用于对目标图像进行特征提取,得到多尺度特征信息;扩散模型去噪部分,用于在多尺度特征信息的引导下进行去噪,生成图像的深度特征;深度解码器部分,用于对图像的深度特征进行处理,得到目标图像的深度图;位姿预测网络将合并后的目标图像和源图像作为输入,输出目标图像和源图像之间的相对位姿。本发明能够充分利用图像的特征信息,提高鲁棒性。
-
公开(公告)号:CN116310945A
公开(公告)日:2023-06-23
申请号:CN202310038705.1
申请日:2023-01-11
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V20/40 , G06V10/40 , G06V10/80 , G06V10/82 , G06V10/764 , G06N3/047 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于视听多模态融合的音视频事件检测方法,包括:从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征;将所述2D视觉特征和3D视觉特征输入至第一模态共有‑私有子空间,所述第一模态共有‑私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征;将所述视觉特征和音频特征输入至第二模态共有‑私有子空间,得到视觉表征和听觉表征;将所述视觉表征和听觉表征输入至注意力池化层,得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。
-
-
-
-
-
-
-
-
-