基于Transformer的多视角3D姿态估计系统

    公开(公告)号:CN114821099B

    公开(公告)日:2025-04-22

    申请号:CN202210370621.3

    申请日:2022-04-10

    Abstract: 本发明属于计算机视觉领域,具体涉及一种基于Transformer的多视角3D姿态估计系统。该系统按照处理流程先后顺序分为单视角时空Transformer特征提取模块和多视角Transformer特征交换模块两个部分。单视角时空Transformer特征提取模块对输入的多视角姿态序列提取不同视角的时空域特征信息;多视角Transformer特征交换模块,将不同视角的时空域特征信息两两交换,然后经过回归头输出最终的3D姿态估计结果。本发明能充分利用姿态序列间的时间上下文和空间关系,在不同视角间充分进行特征交换和传输,提高了3D姿态估计结果的准确度。

    一种基于梯度优化的少样本图像分类方法

    公开(公告)号:CN118608842A

    公开(公告)日:2024-09-06

    申请号:CN202410702279.1

    申请日:2024-06-02

    Applicant: 复旦大学

    Abstract: 本发明属于计算机多媒体技术领域,具体为一种基于梯度优化的少样本图像分类方法。本发明方法如下:1)图像输入阶段,将源域图像与目标域小样本图像,输入图像分类网络提取特征,计算损失值Loss;2)梯度引导阶段,将两个Loss同时输入GradMF算法中计算梯度,通过算法将大样本源域梯度引导至小样本目标域梯度方向上;3)更新模型阶段,将新的梯度返回到网络,更新网络参数,提升网络对小样本图像的分类准确率;4)模型分类阶段,利用训练好的网络模型对需要分类的少样本目标进行分类。本发明提出的方法解决少量样本无法有效训练准确率较高的模型问题,能够优化各类图像分类模型的准确率,并且使得分类模型具有较强的鲁棒性。

    一种细粒度场景图像分类的方法
    93.
    发明公开

    公开(公告)号:CN118608836A

    公开(公告)日:2024-09-06

    申请号:CN202410690190.8

    申请日:2024-05-30

    Applicant: 复旦大学

    Abstract: 本发明属于计算机多媒体技术领域,具体为一种细粒度场景图像分类的方法。本发明基于一种新的多模态特征融合方法,也称为模态无关适配器MAA使模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中进行预先设置。具体而言,本发明基于多层感知机MLP来消除各个模态在分布上的差异消除了不同模态之间的数据分布差异,然后使用了模态无关的Transformer编码器来进行语义级别的特征融合,再结合平均池化池化操作和全连接层实现细粒度场景图像分类。本发明提出的方法能够准确地实现细粒度场景图像分类,而且该模型可以很好地适应于新模态并进一步提高其性能。

    基于深度范例的中文文本识别方法

    公开(公告)号:CN118247796A

    公开(公告)日:2024-06-25

    申请号:CN202410188396.0

    申请日:2024-02-20

    Abstract: 本发明公开了一种基于深度范例的中文文本识别方法;该方法主要包含两个部分:范例查询阶段与范例重排序阶段。范例查询阶段主要用于预测识别结果并且定位每一个文字在图像上的位置,同时使用训练集组建成范例库,该范例库包含了每个文字的全局特征和局部特征;范例重排序阶段,主要针对范例查询阶段识别错误的情况,利用在范例库中检索与重排序得到更加准确的结果,纠正形近字的识别错误。本发明通过两个阶段的结合,成功提升了中文文本识别的准确性和效率,为中文识别领域的技术发展贡献了有力的解决方案。

    一种基于图注意力时空卷积的3D姿态估计方法

    公开(公告)号:CN113538581B

    公开(公告)日:2024-03-12

    申请号:CN202110811915.0

    申请日:2021-07-19

    Abstract: 本发明属于计算机视觉技术领域,具体为一种基于图注意力时空卷积的3D姿态估计方法。该3D姿态估计方法基于按照处理流程先后顺序分为前处理模块、切割图注意力时空卷积模块、补全图注意力时空卷积模块、后处理模块4部分的系统完成。前处理模块初步提取时域信息,然后通过切割图注意力时空卷积模块、补全图注意力时空卷积模块进一步提取时空域信息。本发明能充分利用人体骨架在空间上的约束信息抽取骨架序列空域信息,同时能建立骨架序列时域上的长时依赖,提高了3D姿态估计的精确度。并且不需要原始视频帧的信息,减少计算量。本发明所提框架在3D姿态估计任务上的表现优于现有方法。

    一种基于参数硬共享的姿态估计与人体解析联合学习系统

    公开(公告)号:CN113537072B

    公开(公告)日:2024-03-12

    申请号:CN202110811913.1

    申请日:2021-07-19

    Abstract: 本发明属于计算机视觉技术领域,具体为一种基于参数硬共享的姿态估计与人体解析联合学习系统。该系统分为多尺度特征提取模块、联合学习模块、人体解析分支和姿态估计分支四个部分。输入图像首先经过多尺度特征提取模块得到不同尺度下的图像特征,并进行跨尺度的特征融合;再将各尺度的特征分别送入联合学习模块,得到姿态估计与人体解析的联合特征;最后将姿态估计与人体解析的联合特征分别送入姿态估计分支和人体解析分支中得到姿态估计与人体解析的结果。本发明提出了用于姿态估计与人体解析的多任务联合学习系统。本发明所提系统在姿态估计与人体解析任务上的表现优秀。

    基于多头跨模态注意力机制的弱监督视频时序动作定位方法

    公开(公告)号:CN115761904A

    公开(公告)日:2023-03-07

    申请号:CN202211666324.X

    申请日:2022-12-23

    Applicant: 复旦大学

    Abstract: 本发明属于计算机视频分析技术领域,具体为基于多头跨模态注意力机制的弱监督视频时序动作定位方法。本发明方法包括:对输入的未裁剪视频提取RGB特征和FLOW特征,作为多头跨模态注意力机制模型的训练数据;引入并训练深度学习模型,该模型是多头跨模态注意力机制模型,包括利用多个映射头将原始特征转换为多个不同的隐藏空间,以保证特征多样性;引入协相关矩阵,来挖掘RGB与FLOW特征每个头模态之间的关系,通过归一化交叉注意权值对特征进行重新校正;对重新校准的特征进行融合,得到最后的时序动作定位结果。实验表明,本发明具有通用性,可以作为即插即用模块嵌入到弱监督视频时序动作定位方法中,极大提高模型的检测精度。

    一种基于图卷积网络的两阶段行为识别细分类方法

    公开(公告)号:CN113762175A

    公开(公告)日:2021-12-07

    申请号:CN202111059064.5

    申请日:2021-09-10

    Abstract: 本发明公开了一种基于图卷积网络的两阶段行为识别细分类方法。本发明主要通过再分类困难类别集提高行为识别的准确率,分为三个阶段进行:第一阶段:训练粗分类模型;第二阶段:困难类别集的获取和困难类别集模型的训练,利用粗分类模型在测试集上的混淆矩阵以及并查集算法获取困难类别集,之后分别为不同的困难类别集训练困难类别集模型;第三阶段:在线推断,根据粗分类模型的推断结果,将需要进行细分类的样本输入困难类别集模型再分类。本发明所提出的方法针对模型难以分类相似动作的问题,提出的粗分类——细分类两阶段架构一定程度上缓解了相似动作难分类的问题,提高了行为识别的准确率,在公开数据集上取得了较好的结果。

    基于显著图的时间序列异常点检测方法

    公开(公告)号:CN111967508A

    公开(公告)日:2020-11-20

    申请号:CN202010759034.4

    申请日:2020-07-31

    Applicant: 复旦大学

    Inventor: 吴渊 袁梓 金城

    Abstract: 本发明属于时间序列异常检测技术领域,具体为一种基于显著图的时间序列异常点检测方法。本发明分为序列谱残差变换阶段和序列显著图重构阶段。序列谱残差变换阶段将原始序列转化为显著图形式;序列显著图重构阶段将上一阶段得到的显著图序列作为输入,经过编码解码重构显著图序列,编码阶段利用长短期记忆模型来将输入序列压缩到向量,解码阶段利用对称的长短期记忆模型将向量重构得到的重构显著图序列,计算重构显著图序列和原始显著图序列的残差得到异常评分,通过与阈值比较检测出异常点。该方法能够很好的检测一维时间序列的异常,在时间序列异常检测通用数据集上取得了较好的结果。

    基于离散余弦变换和U-Net的时序异常检测方法

    公开(公告)号:CN111967507A

    公开(公告)日:2020-11-20

    申请号:CN202010759031.0

    申请日:2020-07-31

    Applicant: 复旦大学

    Inventor: 吴渊 袁梓 金城

    Abstract: 本发明属于时间序列异常检测技术领域,具体为一种基于离散余弦变换和U-Net的时序异常检测方法。该方法包括训练阶段和检测阶段,具体步骤如下:训练阶段将正常时序数据编码为特征图,并构建U-Net模型,使用特征图作为样本来训练模型;检测阶段将时序数据编码为特征图,把特征图输入训练好的模型获得异常分数,并根据异常分数的大小判断是否异常。本发明采用的离散余弦变换和U-Net网络模型能够有效的捕捉时序数据的时间依赖性,与基准方法相比,能实现对异常更准确地检测。

Patent Agency Ranking