一种基于跨模态对比学习网络的小样本行为识别方法

    公开(公告)号:CN117372927A

    公开(公告)日:2024-01-09

    申请号:CN202311373809.4

    申请日:2023-10-23

    Inventor: 王菡子 王晓 严严

    Abstract: 一种基于跨模态对比学习网络的小样本行为识别方法,涉及计算机视觉技术。A.给定一些视频,将每个视频中随机抽取nseg帧。B.将采样的视频帧输入时空增强模块获得增强的视频向量。C.步骤B生成的视觉向量输入语义生成网络生成语义向量。D.将视觉向量和语义向量相连接构造混合特征向量,输入非线性对比映射头获得变换的混合特征向量。E.利用步骤B中获得的视觉向量和高斯噪声生成合成向量,并输入到非线性对比映射头获得最终的合成向量。F.将步骤D中生成的变换的混合特征向量和步骤E中生成的合成向量视为类原型,利用余弦相似性计算类原型之间的距离,获得预测可能性。与当前主流的小样本行为识别方法相比,所提出的方法分类性能有所提升。

    一种基于图像的视觉关系检测方法及相关装置

    公开(公告)号:CN117218461A

    公开(公告)日:2023-12-12

    申请号:CN202311039628.8

    申请日:2023-08-16

    Abstract: 本申请公开一种基于图像的视觉关系检测方法及相关装置,将待测图像输入对象检测器进行对象检测,输出多个待测对象和其对应的多个第一对象视觉特征;对象检测器由样本图像和跨模态预训练模型中图像编码器知识蒸馏得到。将两个待测对象形成的待测对象组对应的第一对象视觉特征输入特征提取网络进行关系特征提取,输出第一关系视觉特征;将待测对象组对应的待测对象文本对输入语义编码器,基于多个样本视觉关系和新增视觉关系进行关系语义编码,输出多个第一关系语义特征;语义编码器属于跨模态预训练模型在训练时参数处于冻结状态。通过分类检测器对多个第一关系语义特征分别与第一关系视觉特征进行相似度检测,确定待测对象组对应的目标视觉关系。

    一种基于连续潜在语义分析的模型拟合方法

    公开(公告)号:CN108960296B

    公开(公告)日:2022-03-29

    申请号:CN201810613941.0

    申请日:2018-06-14

    Applicant: 厦门大学

    Abstract: 一种基于连续潜在语义分析的模型拟合方法,涉及计算机视觉技术。准备数据集。融合偏好分析和潜在语义分析构造潜在语义空间。分析潜在语义空间的数据分布。在潜在语义空间中自适应地去除离群点。在潜在语义空间中对剩下的数据点进行聚类分析。根据聚类结果估计模型参数,完成模型拟合。通过融合连续偏好分析和潜在语义分析快速有效地构造潜在语义空间,并将输入数据投影到所构造的潜在语义空间中,使得离群点靠近原点而来自不同模型实例的内点分布在不同的子空间中,从而将复杂的模型拟合问题看作成潜在语义空间中子空间恢复问题。本发明能够快速且有效地处理模型拟合问题。

    一种用于运维数据的无监督异常检测和鲁棒趋势预测方法

    公开(公告)号:CN111913849B

    公开(公告)日:2022-02-11

    申请号:CN202010746722.7

    申请日:2020-07-29

    Applicant: 厦门大学

    Abstract: 一种用于运维数据的无监督异常检测和鲁棒趋势预测方法,涉及计算机系统异常检测技术和趋势预测技术。1)模型设计:变分自编码器作为异常检测模块,为模型的前半部分;长短时记忆网络作为趋势预测模块,为模型的后半部分;2)原始运维时序数据经历数据补全,归一化处理,以及采用滑动窗口将数据分割成固定长度的时序段输入到模型;3)采用变分自编码器重构输入的时序段,从而分离出异常点,达到异常检测的目的;4)将自编码器重构的时序段输入到趋势预测模块,预测下一时刻的状态值。减少时间序列中原有的异常和噪声对长短时记忆网络的影响,提高长短时记忆网络的鲁棒性;提高性能的同时又减少性能在不同数据之间的波动。

    一种基于深度多分支聚合的实时街景图像语义分割方法

    公开(公告)号:CN113011336A

    公开(公告)日:2021-06-22

    申请号:CN202110297170.0

    申请日:2021-03-19

    Applicant: 厦门大学

    Inventor: 严严 翁熙 王菡子

    Abstract: 一种基于深度多分支聚合的实时街景图像语义分割方法,涉及计算机视觉技术。采用流行的编码器‑解码器结构;首先采用轻量级的图像分类网络作为基础,将其改造作为编码器;然后将编码器分为不同的子网络,并将各子网络中的特征分别送入设计的多分支特征聚合网络中和全局上下文模块;接着在多分支特征聚合网络中利用格型增强残差模块和特征变换模块对需要聚合的特征进行空间细节和语义信息上的增强;最后按照特征图的大小,从小到大逐级聚合全局上下文模块的输出特征图和多分支特征聚合网络的输出特征图,以得到最终的语义分割结果图。在处理较大分辨率的街景图像的同时,保持较高的街景图像语义分割精度和实时的预测速度。

    基于幻觉对抗网络的鲁棒目标跟踪方法

    公开(公告)号:CN110135365B

    公开(公告)日:2021-04-06

    申请号:CN201910418050.4

    申请日:2019-05-20

    Applicant: 厦门大学

    Abstract: 基于幻觉对抗网络的鲁棒目标跟踪方法,涉及计算机视觉技术。首先提出一种新的幻觉对抗网络,旨在于学习样本对间的非线性形变,并将学习到的形变施加在新目标以此来生成新的目标形变样本。为了能有效训练所提出的幻觉对抗网络,提出形变重构损失。基于离线训练的幻觉对抗网络,提出基于幻觉对抗网络的目标跟踪方法,该方法能有效缓解深度神经网络在目标跟踪过程中由于在线更新发生的过拟合问题。此外,为了能进一步提升形变迁移质量,提出选择性性变迁移方法,进一步提升了跟踪精度。提出的目标跟踪方法在当前主流目标跟踪数据集上取得了具有竞争力的结果。

    基于改进的下逼近非负矩阵对极几何估计方法

    公开(公告)号:CN110111391B

    公开(公告)日:2021-01-12

    申请号:CN201910418346.6

    申请日:2019-05-20

    Applicant: 厦门大学

    Abstract: 基于改进的下逼近非负矩阵对极几何估计方法,涉及计算机视觉技术。提供伴随着离群点和模型假设修剪技术的基于改进的下逼近非负矩阵对极几何估计方法。首先,使用误匹配修剪技术分析匹配对之间的关系剔除离群点(误匹配点)的影响。接着,使用模型假设修剪技术来选择有意义的模型假设。然后,引入空间约束项(空间上相邻的数据点更可能属于相同的模型假设)和稀疏约束项(稀疏非负元素更能体现数据点对模型的一致特征)到下逼近非负矩阵。最后,使用交替迭代法求解下逼近非负矩阵的u和v,从u中提取多结构模型。

    一种全局与局部特征融合的遮挡鲁棒行人重识别方法

    公开(公告)号:CN112200111A

    公开(公告)日:2021-01-08

    申请号:CN202011116582.1

    申请日:2020-10-19

    Applicant: 厦门大学

    Abstract: 一种全局与局部特征融合的遮挡鲁棒行人重识别方法,涉及计算机视觉技术。包括以下步骤:1)训练数据的准备;2)模型设计与训练;模型包括ResNet‑50骨架网络、全局分支、局部分支以及语义分支、全局分支利用SPC损失提取全局特征,局部分支提取局部特征,语义分支预测人体语义标签,三个分支可以联合在一起进行端到端的训练。3)利用训练好的模型来提取行人重识别数据训练集和测试集中所有行人图像的全局特征、局部特征以及预测行人图像的语义标签,并进行非遮挡区域指示符的计算。4)对查询集中的每幅行人图像分别与数据库中的所有行人图像计算相似度,按相似度从大到小排序,从而完成行人重识别。显著提高了识别的性能。

Patent Agency Ranking