一种面向指向性目标分割的半监督学习方法

    公开(公告)号:CN117975241A

    公开(公告)日:2024-05-03

    申请号:CN202410370335.6

    申请日:2024-03-29

    Applicant: 厦门大学

    Abstract: 本发明提供一种面向指向性目标分割的半监督学习方法,包括:将RES的三个主流数据集分别拆分为有标数据和无标数据,有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;利用SAM离线地构建了一个分割掩码候选库,分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数赋值给教师和学生模型;在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码替换伪标签,得到优化后的伪标签,以监督学生的训练;同时,有标数据继续有监督学习。本发明有效提高伪标签掩码质量,同时提高未标注数据的利用率。

    基于多模态文本增强的跨域人脸防伪造检测方法及装置

    公开(公告)号:CN119441939A

    公开(公告)日:2025-02-14

    申请号:CN202411518245.3

    申请日:2024-10-29

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于多模态文本增强的跨域人脸防伪造检测方法及装置,涉及网络信息安全技术领域,方法包括:将两类描述文本输入预训练的文本编码器提取代表真实/欺骗的文本类别特征,将图像输入预训练的视觉编码器提取视觉特征;在文本编码器的每一层添加可训练的文本提示,在视觉编码器的每一层添加可训练的视觉提示,视觉编码器的每一层视觉提示由当前层的文本提示经过全连接层转换得到;将PFT模块及TIM模块嵌入到文本编码器和视觉编码器每一层的中间层实现特征交互融合,获取文本类别特征与视觉特征之间的余弦相似度及掩膜,进行人脸真假类别。本发明基于PFT模块及TIM模块,使得模态特征交互在特征提取的过程中同时完成,提升了跨域检测性能。

    一种面向指向性目标分割的半监督学习方法

    公开(公告)号:CN117975241B

    公开(公告)日:2024-09-20

    申请号:CN202410370335.6

    申请日:2024-03-29

    Applicant: 厦门大学

    Abstract: 本发明提供一种面向指向性目标分割的半监督学习方法,包括:将RES的三个主流数据集分别拆分为有标数据和无标数据,有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;利用SAM离线地构建了一个分割掩码候选库,分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数赋值给教师和学生模型;在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码替换伪标签,得到优化后的伪标签,以监督学生的训练;同时,有标数据继续有监督学习。本发明有效提高伪标签掩码质量,同时提高未标注数据的利用率。

    基于Transformer结构的分层多尺度图像描述方法

    公开(公告)号:CN117422969A

    公开(公告)日:2024-01-19

    申请号:CN202310211307.5

    申请日:2023-03-07

    Applicant: 厦门大学

    Abstract: 基于Transformer结构的分层多尺度图像描述方法,涉及图像描述技术。针对现有的图像描述方法存在的视觉特征感知尺度单一,从而导致描述效果较差的缺点。提出一种多尺度的分层Transformer结构,可以利用多尺度的视觉特征信息完成准确的图像描述任务。为适应图像描述任务中的多尺度视觉特征设计三种新结构:跨尺度注意、对齐分配解码器和多尺度局部聚合。跨尺度注意是在不同尺度上实现全面的特征交互,并将特征转换为统一的张量形状。多尺度局部聚合的目的是聚合和增强多尺度特征,在此基础上进一步提出对齐分配解码器,自适应地选择最适合的特征尺度完成图像描述任务。

    一种端到端的全景叙事分割的单阶段方法

    公开(公告)号:CN115861618A

    公开(公告)日:2023-03-28

    申请号:CN202211631302.X

    申请日:2022-12-19

    Applicant: 厦门大学

    Abstract: 一种端到端的全景叙事分割的单阶段方法,涉及全景叙事分割。包括步骤:1)用卷积神经网络对图像特征进行多尺度提取并且融合;利用基于变换器的双向编码器表示技术提取文本中的每个词向量,并且利用数据集注释过滤掉非名词部分的词向量,同时对于多个词向量同时对应一个名词的情况,采用取平均值的方法作为当前名词所对应的特征;2)将局部空间先验嵌入到注意力建模中,增强不同尺度的视觉特征,从而提高分割效果;3)用步骤2)提取的文本特征做卷积核,在得到的特征图上做卷积得到掩码M;使用一个双向对比学习损失规范模态间的语义一致性;同时加上其它的损失函数来使得预测掩码的数值和分布接近真实掩码。

    基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法

    公开(公告)号:CN117808826A

    公开(公告)日:2024-04-02

    申请号:CN202311691446.9

    申请日:2023-12-11

    Applicant: 厦门大学

    Abstract: 基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法。由于遥感图像大幅度尺度变化、目标以多角度出现等特性,传统指向性图像分割方法在遥感图像上的表现受限。提供一种针对遥感图像的指向性图像分割方法:1)使用预训练好的语言模型BERT和视觉模型Swin‑Transformer获得语言特征和初始视觉特征;2)使用尺度内特征交互模块对细粒度的局部视觉特征建模;3)使用跨层多尺度注意力对不同粒度的视觉特征融合交互;4)基于尺度间充分交互后的特征提取角度信息,用根据角度动态重采样卷积核权重的自适应旋转动态卷积方法解码特征得预测分割掩码;5)提出使用半自动方法标注的新指向性遥感图像分割数据集。

    统一级联的全景叙事检测与分割方法

    公开(公告)号:CN116050409A

    公开(公告)日:2023-05-02

    申请号:CN202310130117.0

    申请日:2023-02-17

    Applicant: 厦门大学

    Abstract: 统一级联的全景叙事检测与分割方法,涉及全景叙事检测与分割。1)多模态编码;2)多模态交互;3)坐标引导聚合CGA;4)质心驱使定位BDL;5)训练损失。采用基于动态内核的方式构建统一的框架,为每个名词短语构建一个可学习的内核,预测其对应的掩码和边界框。针对预测冲突问题,提出两种新的级联模块来连续处理分割和检测,以实现跨任务对齐,即坐标引导聚合CGA模块和质心驱动定位BDL模块,利用分割掩码的质心作为锚点,将分割和检测串联连接,使两个任务自然对齐。两个模块的联合相互促进各自性能,即掩码的位置信息向前驱动BDL模块产生准确的方框,BDL模块的反向引导促进CGA模块在训练过程中区分不同实例的能力。

Patent Agency Ranking