-
公开(公告)号:CN118365659B
公开(公告)日:2024-11-01
申请号:CN202410796369.1
申请日:2024-06-20
Applicant: 厦门大学
IPC: G06T7/10 , G06N3/0499 , G06N3/0464 , G06N3/08
Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。
-
公开(公告)号:CN116704090A
公开(公告)日:2023-09-05
申请号:CN202310669840.6
申请日:2023-06-07
Applicant: 厦门大学
Abstract: 基于动态文本引导的文本驱动3D风格化方法,涉及3D风格化方法。1)用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果;2)用动态通道和空间注意力获得对目标文本敏感的顶点特征;3)使用两个多层感知机分别提取颜色和位置特征,并使用可微渲染器对mesh进行渲染;4)提出标准的文本到mesh的数据集MIT‑30;5)提出两个自动评估指标。通过在顶点属性预测的神经网络中加入文本驱动的动态注意力机制,生成更好的风格化3D产品,提高模型的收敛速度。提出数据集MIT‑30给不同的文本驱动的3D风格化工作提供更方便的研究对象。提出两个评估指标,对文本驱动的3D风格化方法公平和全面的比较。
-
公开(公告)号:CN116071544A
公开(公告)日:2023-05-05
申请号:CN202310040718.2
申请日:2023-01-13
Applicant: 厦门大学
Abstract: 面向弱监督指向性视觉理解的图像描述预测方法,涉及图像处理。RGB图像通过预训练的YoloV3主干网络得三个尺度视觉特征即锚点特征及其对应的预测框,多尺度融合,尺度过滤、置信度过滤得到候选锚点特征,候选锚点特征和对应文本特征相似度计算。训练时,优化目标是最大化匹配图文对中锚点特征和对应文本之间最高相似度得分,最小化不匹配图文对中锚点特征和文本之间相似度得分,实现缺乏真实边界框标注条件下图片与语义对齐。预测时,选择和文本相似度最高的锚点特征,根据索引找到对应预测框,选择置信度最高的预测框作目标边界框输出。减少候选锚点数量,减少噪声,不受batchsize大小限制,采用单阶段建模,有效提升推理速度。
-
公开(公告)号:CN115964530A
公开(公告)日:2023-04-14
申请号:CN202310040601.4
申请日:2023-01-13
Applicant: 厦门大学
IPC: G06F16/583 , G06T9/00 , G06N3/08 , G06N3/049 , G06N3/0464
Abstract: 面向局部视觉建模的图像描述生成方法,涉及图像描述生成方法。包括:1)模型输入特征在编码器模块通过多头自注意力模块细化特征提取;2)用局部敏感性注意力获取到的注意力权重矩阵对多头自注意力模块输出的特征进行重新加权,将相邻网格之间的依赖关系细化;3)用前馈神经网络实现通道域的互动,建立通道域上视觉特征的联系;4)用空间偏移操作将网格与其相邻的网格对齐,获取偏移后的特征表示;5)将偏移后的特征表示聚合后使用多层感知机实现视觉特征在通道域和空间域的互动;6)融合后的特征输出加权后与顶层编码器的输出加总,得到输入解码器的融合特征表示。提高局部视觉信息的标注质量,性能优异。
-
公开(公告)号:CN119648568A
公开(公告)日:2025-03-18
申请号:CN202411786947.X
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06T5/70 , G06F40/289 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,涉及图像生成技术领域。所述方法通过设计分层引导机制计算Unet模型部分的中间层和上采样层的交叉注意力图的控制损失、抑制损失和修补损失,并根据分层引导设计的能量函数计算损失再梯度回传更新潜在特征,从而在低分辩下结合控制损失与抑制损失的实现目标有效的布局控制,在中和高分辨率下结合控制损失与修补损失去确保目标形状控制。本发明提供的一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,解决了基于轨迹的图像生成模型的不能够稳定控制布局和不能对目标精细控制的缺陷,同时不需要额外训练。
-
公开(公告)号:CN119625011A
公开(公告)日:2025-03-14
申请号:CN202411674588.9
申请日:2024-11-21
Applicant: 厦门大学
IPC: G06T7/136 , G06V10/80 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/0895 , G06N3/0464
Abstract: 本发明公开了一种图像增强提示解码网络的三维指向性目标分割方法,包括以下步骤:S1、特征提取;S2、多视角语义嵌入策略和查询生成;S3、提示感知解码器;S4、训练损失:训练损失包括基础损失、概率损失和对比学习损失;本发明以自上而下的方法利用多视角图像和任务驱动的信息来释放模型的推理能力;MSE使用CLIP提取二维图像特征,然后与三维点云特征融合,以显著增强视觉特征;PAD使用任务驱动的提示信号来指导解码过程,通过任务驱动提示模块,生成了强调每个查询与文本的相关性的提示,有效地将任务特定的信息注入到模型中,并显著降低了学习的复杂性。
-
公开(公告)号:CN119441939A
公开(公告)日:2025-02-14
申请号:CN202411518245.3
申请日:2024-10-29
Applicant: 厦门大学
IPC: G06F18/24 , G06V40/16 , G06V40/40 , G06F18/213 , G06F18/25 , G06F18/22 , G06N3/0499 , G06N3/047 , G06N3/0895
Abstract: 本发明公开了一种基于多模态文本增强的跨域人脸防伪造检测方法及装置,涉及网络信息安全技术领域,方法包括:将两类描述文本输入预训练的文本编码器提取代表真实/欺骗的文本类别特征,将图像输入预训练的视觉编码器提取视觉特征;在文本编码器的每一层添加可训练的文本提示,在视觉编码器的每一层添加可训练的视觉提示,视觉编码器的每一层视觉提示由当前层的文本提示经过全连接层转换得到;将PFT模块及TIM模块嵌入到文本编码器和视觉编码器每一层的中间层实现特征交互融合,获取文本类别特征与视觉特征之间的余弦相似度及掩膜,进行人脸真假类别。本发明基于PFT模块及TIM模块,使得模态特征交互在特征提取的过程中同时完成,提升了跨域检测性能。
-
公开(公告)号:CN117975241B
公开(公告)日:2024-09-20
申请号:CN202410370335.6
申请日:2024-03-29
Applicant: 厦门大学
Abstract: 本发明提供一种面向指向性目标分割的半监督学习方法,包括:将RES的三个主流数据集分别拆分为有标数据和无标数据,有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;利用SAM离线地构建了一个分割掩码候选库,分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数赋值给教师和学生模型;在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码替换伪标签,得到优化后的伪标签,以监督学生的训练;同时,有标数据继续有监督学习。本发明有效提高伪标签掩码质量,同时提高未标注数据的利用率。
-
公开(公告)号:CN117994506B
公开(公告)日:2024-08-20
申请号:CN202410404651.0
申请日:2024-04-07
Applicant: 厦门大学
IPC: G06V10/25 , G06V20/10 , G06V10/44 , G06N3/0455
Abstract: 本发明提供了遥感图像检测技术领域的一种动态知识集成的遥感图像显著性目标检测方法,包括:步骤S1、创建特征提取器;步骤S2、通过特征提取器从遥感图像中提取多尺度特征并进行通道归一化;步骤S3、对多尺度特征进行通道注意力计算得到通道注意力值,基于通道注意力值筛选高贡献的特征通道并进行通道增强操作;步骤S4、从高到低逐层将相邻的各多尺度特征输入动态知识集成模块,输出增强特征;步骤S5、将各增强特征输入特征校准模块,输出校准特征,直至完成所有尺度的特征校准;步骤S6、将各校准特征的特征维度压缩为1后映射至RGB空间,以输出遥感图像的显著性目标。本发明的优点在于:极大的提升了遥感图像显著性目标检测精度。
-
公开(公告)号:CN117830638B
公开(公告)日:2024-07-19
申请号:CN202410239251.9
申请日:2024-03-04
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/778 , G06V10/764 , G06V10/774
Abstract: 本发明提供基于提示文本的面向全方位监督语义分割方法,能有效利用各种低成本图像标签以减少训练数据集的人工标注成本,达到降低语义分割方法训练成本的目的,提高语义分割模型的性能和泛化性,并通过结合视觉语言多模态模型,输入提示文本来指导模型筛选图像中的语义分割目标,通过提示文本定位出图像中目标所在位置。该语义分割方法基于教师‑学生模型框架进行改进并利用人工标注的图像全方位标签监督训练模型,包括:步骤1、计算全方位监督时教师‑学生模型框架的损失函数#imgabs0#;步骤2、通过指数移动平均算法更新教师模型的权重#imgabs1#。
-
-
-
-
-
-
-
-
-