-
公开(公告)号:CN117584127A
公开(公告)日:2024-02-23
申请号:CN202311639982.4
申请日:2023-12-04
Applicant: 上海交通大学
IPC: B25J9/16
Abstract: 本公开提供一种面向机械臂多任务长程决策的强化学习系统,其包括:混合世界模型模块,将当前时刻的视觉观测、执行的动作以及当前任务的第一分类任务变量作为输入,采用高斯混合变量获取隐空间中输入量的空间外观的多模态分布,输出重建的图像;预测性经验回放模块,将第二分类任务变量作为输入,采用上一任务的生成模型副本、世界模型副本以及动作模型副本进行轨迹重演,并采用重演轨迹和当前轨迹对当前任务的生成器和机械臂进行训练,确定训练完成的机械臂和智能体。通过本公开,控制机械臂实现高效记忆的数据重演,克服世界模型的灾难性遗忘,在机械臂多任务长程决策场景中面对多个任务时,能够灵活地做出决策,提高机械臂的自主性和适应性。
-
公开(公告)号:CN113628244B
公开(公告)日:2023-11-28
申请号:CN202110757887.9
申请日:2021-07-05
Applicant: 上海交通大学
IPC: G06T7/246 , G06T7/187 , G06T3/40 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/766 , G06N3/0464 , G06N3/088
Abstract: 本发明提供了一种基于无标注视频训练的目标跟踪方法及系统,对原始视频进行无监督光流预测,提取所述原始视频中每一帧的候选框,得到候选框序列;基于所述候选框序列,构建运动物体在所述原始视频中的伪标定框序列;基于所述伪标定框序列构建训练样本,并将所述训练样本输入至朴素孪生网络对所述朴素孪生网络进行训练,生成初步跟踪模型;对所述初步跟踪模型进行存储循环训练,得到目标跟踪模型;利用所述目标跟踪模型对待跟踪视频中的目标进行跟踪。同时提供了一种相应的终端及介质。本发明大幅度减少视频数据人工标注的成本,同时丰富训练可利用的视频数据;在无标注情况下,
-
公开(公告)号:CN111968129B
公开(公告)日:2023-11-07
申请号:CN202010678065.7
申请日:2020-07-15
Applicant: 上海交通大学
Abstract: 本发明提供了一种具有语义感知的即时定位与地图构建系统及方法,图像采集与预处理模块获取相机采集的RGB图像并进行预处理,得到预处理图;语义分割模块对预处理图进行二维语义分割,得到二维语义分割图;深度估计模块获取预处理图的深度信息,得到预处理图的深度预测图;相机位姿估计模块根据输入的预处理图及其深度预测图进行相机位姿估计,得到相机位姿矩阵;三维稠密点云重建模块对当前帧预处理图及其深度预测图以及当前帧相机位姿矩阵进行三维场景的稠密点云重建,并将二维语义分割图映射到三维场景的稠密点云上,完成具有语义信息的三维场景重建。本发明并且具有准确性和鲁棒性,仅靠单目相机实现了对场景的理解与重建。
-
公开(公告)号:CN111539909B
公开(公告)日:2023-04-28
申请号:CN202010172380.2
申请日:2020-03-12
Applicant: 上海交通大学
IPC: G06T7/00 , G06V10/764 , G06V10/80
Abstract: 本发明提供了一种相似场景图像组的图像质量评估方法、系统及终端,对场景内容一致的图像组数据进行独立自由能值和耦合自由能值的计算,得到分别以图像自身为先验知识的独立自由能值和分别以剩余图像为先验知识的耦合自由能值;利用独立自由能估计对组内图像局部区块的关注程度;利用耦合自由能值估计对组内图像局部失真的感知程度;对相似场景图像组所有的局部区块的失真感知程度和关注程度作为整体图像组的特征,对特征进行融合,生成整体图像组的视觉感知质量结果。该方法较好地解决了相似场景图像组的质量评估的问题。
-
公开(公告)号:CN115984637A
公开(公告)日:2023-04-18
申请号:CN202211650983.4
申请日:2022-12-21
Applicant: 上海交通大学
Abstract: 本发明提供一种时序融合的点云3D目标检测方法、系统、终端及介质,包括:获取一时序的点云数据;将所述点云数据对齐到同一个坐标系下;在训练过程中,使用时序一致的数据增强进行训练来解决物体分布不均的情况;将点云编码成鸟瞰图特征图后,使用可变形注意力机制为当前帧的特征图动态的融合过去时刻的特征;将融合的特征图送入到检测头中预测物体。本发明显著的增强了检测的性能,并且该方法可以适用于任何鸟瞰图检测方法,并且可以扩展到任意长度的时间序列。
-
公开(公告)号:CN110503666B
公开(公告)日:2021-11-23
申请号:CN201910650651.8
申请日:2019-07-18
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于视频的密集人群计数方法,根据原始视频数据,计算视频叠加光流;根据视频叠加光流,生成运动特征;根据原始视频数据,生成外观特征;将运动特征与外观特征级联,得到合并特征,将合并特征输入膨胀卷积网络,生成人群活跃区域分割;将人群活跃区域分割,输入空间注意力机制网络,生成空间注意力图,利用空间注意力图对外观特征进行加权,得到注意力加权之后的外观特征;将注意力加权之后的外观特征输入膨胀卷积网络,得到人群密度估计。同时提供了一种基于视频的密集人群计数系统。本发明实现基于空间注意力的密度估计,从而达到了减轻背景干扰的目的,提升了人群计数的鲁棒性。
-
公开(公告)号:CN111479109B
公开(公告)日:2021-06-29
申请号:CN202010172444.9
申请日:2020-03-12
Applicant: 上海交通大学
IPC: H04N17/00 , H04N21/234 , H04N21/44
Abstract: 本发明提供了一种基于视听联合注意的视频质量评价方法、系统及终端,该方法在传统基于视觉注意的视频质量评价方法的基础上,通过纳入听觉对视觉注意的影响,构建更加全面的视听联合注意力模型,然后在视频局部失真池化的时候引入基于视听联合注意的加权池化,从而更好地辅助视频质量评价;该方法主要包含三大步骤:构建视听联合注意力模型,视频局部失真度量,基于视听联合注意的局部失真池化。本发明可以更全面地考虑听觉对视觉注意的影响,从而利用视听联合注意更有效地辅助视频质量评价。
-
公开(公告)号:CN111539250A
公开(公告)日:2020-08-14
申请号:CN202010171560.9
申请日:2020-03-12
Applicant: 上海交通大学
Abstract: 本发明提供一种基于神经网络的图像雾浓度估计方法、系统和终端,方法包括:采用卷积神经网络自动提取待测图像的特征;将提取的待测图像的所述特征采用最大池化层与卷积层进行特征映射;计算映射后的所述特征中的最大值和平均值,并将两者进行融合;对于融合后的特征进行激活;对激活得到的特征取平均,得到的结果为最后整幅图像的雾浓度。所述系统包括特征提取模块、特征映射模块、局部统计值集散模块和最大值均值融合模块。本发明能很好的预测雾浓度的大小,并且与人类的主观评价高度一致,可以对任意大小的雾图像进行雾浓度的估计。
-
公开(公告)号:CN111488886A
公开(公告)日:2020-08-04
申请号:CN202010171615.6
申请日:2020-03-12
Applicant: 上海交通大学
Abstract: 本发明提供了一种基于排列注意力特征的全景图像显著性预测方法,包括:提取模板特征图和逐通道特征图,将所述模板特征图和所述逐通道特征图进行相乘生成逐通道特征;将生成的所述逐通道特征进行注意力特征排列;根据排序结果,选择对细粒度显著性预测有用的所述逐通道特征进行特征增强,将选择的所述逐通道特征输入到卷积神经网络中进行头部注视点的预测。本发明还提供与上述方法对应的系统及终端。本发明不仅可以较好的模拟人类视觉注意力机制,而且也得到了较高的预测准确率。
-
公开(公告)号:CN108012157B
公开(公告)日:2020-02-04
申请号:CN201711207766.7
申请日:2017-11-27
Applicant: 上海交通大学
IPC: H04N19/80 , H04N19/117 , H04N19/625 , H04N19/132 , H04N19/587 , H04N19/503 , G06N3/04
Abstract: 本发明提供一种用于视频编码分数像素插值的卷积神经网络的构建方法,包括:收集不同内容、分辨率的图像,形成包含不同类型、编码复杂度的数据的原始训练数据集;对原始训练数据集进行预处理操作,得到符合视频编码帧间预测分数像素插值特性的训练数据;搭建深度卷积神经网络,得到适用于视频编码帧间预测分数像素插值的卷积神经网络结构;使用预处理得到的数据输入搭建好的卷积神经网络,同时将原始训练数据集作为对应的真值,训练搭建的卷积神经网络。本发明保证了卷积神经网络可顺利训练,且使用训练好的卷积神经网络插值得到的分数像素满足视频编码分数像素插值特性需求,使用本发明进行分数像素插值可实现视频编码效率的提升。
-
-
-
-
-
-
-
-
-