-
公开(公告)号:CN119850880A
公开(公告)日:2025-04-18
申请号:CN202411912451.2
申请日:2024-12-24
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06T19/00 , G06T7/73 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种面向任务型机器人的高效场景表征方法,包括以下步骤:获取机器人捕获的不同视角的RGB图像帧及其深度信息;对每个图像帧进行全景分割获得2D语义信息和2D实例信息,并根据对应的深度信息向三维网格空间投影得到3D语义信息和3D实例信息;基于帧间相机位姿将各个图像帧的3D语义信息和3D实例信息融合到同一个世界坐标系下,进而根据融合后的3D语义信息和3D实例信息采用TSDF方法进行增量式建图,并在建图时基于语义信息和实例信息进行体素的融合更新,得到全景场景点云;基于所述全景场景点云,以其中所有实例为节点,以各个实例间的关系为边,预测获得3D场景图。本发明能够生成高效表征场景的三维语义场景图。
-
公开(公告)号:CN116245940A
公开(公告)日:2023-06-09
申请号:CN202310052012.8
申请日:2023-02-02
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种基于结构差异感知的类别级六自由度物体位姿估计方法,包括:将深度图输入至目标检测分割网络进行识别,并根据识别结果得到物体实例的观测点云,并基于物体实例的观测点云选择目标物体对应的类别先验;提取观测点云和类别先验的特征,得到实例几何特征和类别几何特征;将实例几何特征和类别几何特征输入信息交互增强模块,得到增强的实例几何特征和类别几何特征;再通过所述语义动态融合模块进行语义和几何信息的融合,得到实例融合特征和类别融合特征;基于类别融合特征得到实例NOCS模型;通过匹配网络将实例NOCS模型和观测点云进行匹配,并根据相似性计算得到目标物体的6D位姿和大小。本发明能够提高6D位姿估计的准确性。
-
公开(公告)号:CN114882091A
公开(公告)日:2022-08-09
申请号:CN202210476348.2
申请日:2022-04-29
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种结合语义边缘的深度估计方法,包括:获取待深度估计的图像;将所述图像输入至训练好的深度学习网络中得到深度预测图和语义边缘预测图;所述深度学习网络包括:共享特征提取模块、深度估计模块、边缘增强权重模块、深度边缘语义分类模块和语义边缘检测模块;所述共享特征提取模块用于提取所述图像中的特征信息,并传输给所述深度估计模块和语义边缘检测模块;所述深度估计模块通过所述语义边缘检测模块输出的语义边缘引导视差平滑,并通过图像双重构的方式进行深度估计;所述边缘增强权重模块基于所述深度估计模块输出的深度预测图的深度边缘形成所述语义边缘检测模块所需要融合的特征结果;所述深度边缘语义分类模块用于进行深度边缘语义分类预测;所述语义边缘检测模块用于输出图像的语义边缘分类预测。本发明能够提高准确度。
-
公开(公告)号:CN117636283B
公开(公告)日:2025-05-06
申请号:CN202311620331.0
申请日:2023-11-30
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V20/56 , G06V10/80 , G06V10/764 , G06V10/40 , G06V10/774 , G06V10/776 , G06V10/82
Abstract: 本发明涉及一种基于环绕视角表征的含时序栅格占据率估计方法,包括:接收车辆周围相机传感器获取的多视角相机图像;将所述多视角相机图像输入至栅格占据率估计模型中,得到栅格占据率预测结果;其中,所述栅格占据率估计模型包括:特征提取模块,用于从所述多视角相机图像中提取出图像特征;环视角注意力模块,用于将提取出的图像特征按照方向映射到环视视角,得到环视视角特征;时序特征多重注意力模块,用于通过多重注意力机制对所述环视视角特征进行处理,得到包含历史信息的时序特征;预测模块,用于根据包含历史信息的时序特征进行预测,得到栅格占据率预测结果。本发明克服了正视图和侧视图在同一坐标包含多个特征的问题。
-
公开(公告)号:CN119359817A
公开(公告)日:2025-01-24
申请号:CN202411233194.X
申请日:2024-09-04
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06T7/80
Abstract: 本发明涉及一种远心三维测量系统标定方法,包括以下步骤:构建由多个相互平行的标定平面组成的虚拟3D标定目标,所述标定平面上设有多个标定特征点;利用虚拟3D标定目标来对远心相机进行标定;利用相机像素坐标系与投影仪像素坐标系间的全局单应性关系,对标定特征点的投影仪像素坐标进行优化;根据优化后的投影仪像素坐标,完成对远心投影仪的标定;基于光束平差法,对相机和投影仪进行联合标定。本发明能够避免陷入平面局部最优解,同时有效解决相位误差的影响,获得更为精确的标定结果。
-
公开(公告)号:CN119228993A
公开(公告)日:2024-12-31
申请号:CN202411173891.0
申请日:2024-08-26
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种远心光学系统三维重建点云数据优化方法,包括以下步骤:获取目标物体在相机平面的相机像素点;通过相位坐标转换方法确定与所述相机像素点匹配的投影仪像素点;根据远心光学系统三维成像模型确定与所述相机像素点匹配的投影仪像平面上的极线作为参考极线;根据投影仪像素点到参考极线的距离来进行优化,以使点云数据中的投影仪像素点均满足极线约束。本发明根据几何关系对重建点云结果进行优化,提高了三维重建的准确度和精度。
-
公开(公告)号:CN116310945A
公开(公告)日:2023-06-23
申请号:CN202310038705.1
申请日:2023-01-11
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V20/40 , G06V10/40 , G06V10/80 , G06V10/82 , G06V10/764 , G06N3/047 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于视听多模态融合的音视频事件检测方法,包括:从待检测音视频文件中提取出2D视觉特征、3D视觉特征和音频特征;将所述2D视觉特征和3D视觉特征输入至第一模态共有‑私有子空间,所述第一模态共有‑私有子空间将所述2D视觉特征和3D视觉特征聚合成一路的视觉特征;将所述视觉特征和音频特征输入至第二模态共有‑私有子空间,得到视觉表征和听觉表征;将所述视觉表征和听觉表征输入至注意力池化层,得到片段级别和视频级别的事件预测结果。本发明可以解决音视频事件检测任务中模态时序非对齐情况下的跨模态融合问题。
-
公开(公告)号:CN111190981A
公开(公告)日:2020-05-22
申请号:CN201911354167.7
申请日:2019-12-25
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本申请涉及一种三维语义地图的构建方法、装置、电子设备及存储介质,该方法通过获取环境图像集合,并根据已训练的语义分割模型对环境图像集合进行语义分割,得到语义图像序列。将语义图像序列的每帧语义图像投射到预先建立的三维坐标系上,得到第一点云集合,第一点云集合中的第一点云对应每帧语义图像。对第一点云集合进行滤波,得到滤波后的第一点云集合;对滤波后的第一点云集合中的第一点云进行聚类处理,得到第二点云集合;对第二点云集合进行滤波,得到三维语义地图。本申请将彩色图像序列和深度图像序列结合作为语义分割模型的输入,如此,可以提升语义预测能力,且基于带语义的点云分层次地进行滤波,可以节约缓存、提升实时性。
-
公开(公告)号:CN119888250A
公开(公告)日:2025-04-25
申请号:CN202411912298.3
申请日:2024-12-24
Applicant: 中国科学院上海微系统与信息技术研究所
Abstract: 本发明涉及一种基于归一化交并比的目标关联方法,包括以下步骤:获取源目标集;对待处理图像进行目标检测,获得若干候选边界框及其置信度;提取置信度高于设定的置信度阈值的所述候选边界框,组成候选目标集;以源目标集中各个待关联目标对应的边界框与各个所述获选边界框的归一化交并比值为元素构建代价矩阵,所述归一化交并比值#imgabs0#基于所述代价矩阵,利用匈牙利算法求解与所述待关联目标最匹配的所述获选边界框,获得多个最佳匹配对;根据每组所述最佳匹配对的归一化交并比值确定目标是否关联。本发明能够显著提升目标追踪关联任务的准确度。
-
公开(公告)号:CN116309698B
公开(公告)日:2024-06-11
申请号:CN202310038906.1
申请日:2023-01-11
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06T7/246 , G06T5/00 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于运动特征弥补引导的多帧光流估计方法,包括以下步骤:提取至少连续两帧的输入图像的图像特征;基于相邻两帧的输入图像的图像特征,采用运动编码器得到初始运动特征;将初始运动特征和历史集成特征输入至MFC单元,所述MFC单元通过交叉注意力得到增强运动特征,并与初始运动特征合并得到集成特征;将所述集成特征输入至迭代模块进行迭代计算,得到最终光流。本发明可以大大改进光流估计在遮挡区域的性能。
-
-
-
-
-
-
-
-
-