-
公开(公告)号:CN100493195C
公开(公告)日:2009-05-27
申请号:CN200710041117.4
申请日:2007-05-24
Applicant: 上海交通大学
Abstract: 一种结合节目内容元数据和内容分析的时移电视视频匹配方法,属于电子信息技术领域。步骤如下:(1)元数据的获取:按包识别符提取视频节目元数据信息,按照数字广播业务信息规范进行解析,建立元数据信息索引,提供给查询模块调用;(2)压缩码流中的视频匹配:首先将视频序列分割为镜头,并在镜头内选择关键帧,然后提取镜头内的运动特征和关键帧中的静态特征,建立视频结构库和特征库,最后根据用户提交的查询按照特征进行匹配检索,将结果按相似性程度排序后交给用户。本发明充分利用了现有技术,加入了元数据高层语义特征,考虑了用户的反馈意见,提高了结果的精确度。
-
公开(公告)号:CN119763173A
公开(公告)日:2025-04-04
申请号:CN202411907906.1
申请日:2024-12-24
Applicant: 上海交通大学
IPC: G06V40/16 , G06V40/40 , G06V10/82 , G06V10/764 , G06V10/42 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明提供一种基于频域捷径分析的可泛化人脸活体检测方法,包括:将待测图像输入频域重构网络,获得保留细节的频域特征;启动动态频域掩码机制,通过掩码的方式,识别频域特征潜在的频域捷径,去除频域特征的频域捷径;启动风格抑制机制,根据频域重构网络获得的中间特征,获得风格特征沿通道维度的丰富度,降低去除频域捷径后的频域特征的与丰富度对应通道的重要性,得到风格抑制的特征;将风格抑制的特征输入分类器,得到人脸活体检测结果。本发明通过在频域空间缓解模型对捷径特征的依赖,来提升模型的泛化性能。同时引入风格抑制调制组件,抑制风格信息丰富度高的特征通道以减小与分类无关的风格信息对模型决策的影响。
-
公开(公告)号:CN118429493A
公开(公告)日:2024-08-02
申请号:CN202410670268.X
申请日:2024-05-28
Applicant: 上海交通大学
IPC: G06T13/40 , G06T19/00 , G06T5/70 , G06N3/0455
Abstract: 本发明提供一种VR/AR场景下人体与多物体交互动作生成方法及系统,包括:采集人体与多物体交互的动作捕捉数据集;基于所述动作捕捉数据集,建立并训练文本生成人与物体交互的扩散模型;使用训练好的扩散模型,以物体的几何信息,物体和人的初始姿态,描述希望生成的人与物体交互的文本为扩散条件,通过高斯扩散去噪得到对应的人体动作与物体运动序列。本发明提出3D人体与多物体进行交互的数据集,同时基于该数据集提出了一种通过文本生成人体与物体运动的扩散模型;相比于现有技术,本发明能够生成更加真实自然的人物交互动作序列,且用途更加广泛。
-
公开(公告)号:CN118334081A
公开(公告)日:2024-07-12
申请号:CN202410480588.9
申请日:2024-04-22
Applicant: 上海交通大学
IPC: G06T7/246 , G06T5/70 , G06V10/25 , G06V10/40 , G06N3/0455 , G06N3/0464 , G06N5/04 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种基于点集扩散的视觉目标跟踪系统及方法,所述系统包括ViT‑Base编码器和基于去噪扩散的解码器,ViT‑Base编码器具有N1个编码层,每个编码层用于对模板图像和搜索图像分别进行特征提取,将二者的特征进行交互后重新调整为二维搜索图像特征,并输出至解码器;解码器初始化随机分布在二维搜索图像特征中的N2个点集,解码器具有N个去噪扩散层,其中t个相邻的去噪扩散层依次对该N2个点集进行去噪处理,第t‑1个去噪扩散层的输出作为第t个去噪扩散层的输入,每次去噪处理得到与N2个点集一一对应的N2个目标候选框,1≤t≤T;当存在任一目标候选框的置信度分数大于预设阈值时,则将该目标候选框确定为目标。本发明可以实现随机噪声到目标的扩散过程。
-
公开(公告)号:CN117893735A
公开(公告)日:2024-04-16
申请号:CN202410017694.3
申请日:2024-01-05
Applicant: 上海交通大学
IPC: G06V10/25 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/08
Abstract: 本公开提供一种十亿像素级目标检测方法、装置、介质及电子设备,其中,十亿像素级目标检测方法包括:采用预训练的快速检测器对十亿像素级图像进行检测处理,确定十亿像素级图像的目标尺寸分布;采用预训练的SAM模型对十亿像素级图像进行背景移除处理,确定无背景的十亿像素级图像区域;根据十亿像素级图像的目标尺寸分布,采用预训练的快速检测器和预训练的慢速检测器对无背景的十亿像素级图像区域进行目标检测处理,确定目标检测结果。通过本公开,实现在十亿像素级图像中准确、高效的目标检测,减少误检、漏检情况,降低计算复杂度,提高处理速度,并且,在较大规模的高像素图像分析任务中具有泛化性。
-
公开(公告)号:CN112101428B
公开(公告)日:2023-11-10
申请号:CN202010875309.0
申请日:2020-08-27
Applicant: 上海交通大学
IPC: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于卷积神经网络的图像分类方法及系统,该方法包括:建立可堆叠的基础块,用于堆叠形成不同深度的神经架构,具体深度由不同任务所在的数据集而定;设置基础块中所有残差块的基础通道数目;设置所有残差块的膨胀率以及单路径宽度,堆叠基础块,确定最终的神经架构;对神经架构进行训练,得到图像分类系统并进行测试。该系统包括:基础块建立模块、残差块的基础通道数设置模块、神经架构确定模块以及神经架构训练模块。通过本发明,提高了神经网络的性能,且可以很容易的被迁移到不同的数据集上。
-
公开(公告)号:CN116523830A
公开(公告)日:2023-08-01
申请号:CN202310231335.3
申请日:2023-03-10
Applicant: 上海交通大学
Abstract: 本发明提供3D目标检测方法及系统,包括:提取原始激光雷达LiDAR点云中基于体素voxel的3D稀疏特征列,稠密后转换到BEV视角下得到2D特征图,使用颈部网络生成多尺度特征图,级联后送入检测头,生成3D区域候选;在原始点云中采集3D区域候选附近的兴趣点,从3D稀疏特征列和2D特征图插值出兴趣点的context特征,用语义分割监督引导骨干网络的特征学习;设置位置增强的RoI‑corner池化模块对每个3D区域候选提取3DRoI特征,进行精炼,生成最终的3D目标检测结果。本发明利用原始点的精确定位信息,插值方式简单,池化点数量较少,减少兴趣点局部特征提取和较多池化点表示带来的相应开销。
-
公开(公告)号:CN111508528B
公开(公告)日:2023-02-28
申请号:CN202010171602.9
申请日:2020-03-12
Applicant: 上海交通大学
Abstract: 本发明提供了的一种基于自然音频统计特性的无参考音频质量评价方法,通过将相关的自然图像统计特性推广至自然音频统计,从而实现基于自然音频统计的无参考音频质量评价;本发明所提供的方法包括如下步骤:对输入音频信号进行正则化,利用自然音频统计特性进行建模,提取基于自然音频统计的音频质量特征,特征回归得到最终的音频质量估计。同时提供了一种基于自然音频统计特性的无参考音频质量评价装置。利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法和装置,可有效地在原始音频信号未知的情况下估计待测的音频信号质量。
-
公开(公告)号:CN115239654A
公开(公告)日:2022-10-25
申请号:CN202210834864.8
申请日:2022-07-15
Applicant: 上海交通大学
Abstract: 本发明提供一种超高分辨率图像场景下的实时目标检测方法,包括:将原始图像处理生成高分辨率图像和低分辨率图像;将低分辨率图像进行处理得到保留区域;高分辨率图像依据保留区域进行裁剪,生成多个区域子图;将区域子图进行检测,获得检测结果。本发明通过分辨率处理、多尺度密度回归、区域决定和区域生成处理,对超大分辨率图像快速检测出需要进一步细粒度检测的区域。另外由于进行尺度归一化、目标检测以及结果合并等处理,能够生成最终的超高分比率的检测结果。在目标检测阶段可以对多个区域的子图进行并行处理,能够大大提高推理时间。由于能够在密度估计阶段丢弃部分无物体区域,所以能够节省计算所需的存储资源和计算时间。
-
公开(公告)号:CN111627044B
公开(公告)日:2022-05-03
申请号:CN202010337803.1
申请日:2020-04-26
Applicant: 上海交通大学
IPC: G06T7/246 , G06V10/25 , G06V10/774 , G06K9/62
Abstract: 本发明提供了一种基于深度网络的目标追踪攻击与防御方法,获取被攻击目标跟踪器,输入待攻击的目标跟踪视频序列;确定待检测的正负样本及伪正负样本;根据正负样本及伪正负样本,分别计算样本及伪样本的对抗攻击损失函数,并计算损失函数对输入图像的梯度值反传至输入图像;进行多次帧内迭代,得到多次迭代的对抗样本;将对抗样本与输入图像进行差值计算,得到的结果即为该帧的对抗攻击扰动,将该帧的扰动作为下一帧的初始扰动,重复此过程,得到完整的对抗攻击视频序列。本发明通过在原视频序列上增加及减少人眼不易见的微小扰动,有效地降低及恢复了基于深度网络目标追踪器的追踪性能;应用于原始视频序列上,能够有效提升目标追踪的准确度。
-
-
-
-
-
-
-
-
-