-
公开(公告)号:CN117173518B
公开(公告)日:2025-05-16
申请号:CN202311131030.1
申请日:2023-09-04
Applicant: 厦门大学
IPC: G06V10/776 , G06V10/764 , G06V10/40 , G06N3/0455
Abstract: 基于跨数据集蒸馏多令牌半监督无参考图像质量评估方法,涉及计算机视觉技术。提出一种基于注意力蒸馏的NR‑IQA方法。有效集成来自不同数据集的知识,以增强图像质量的表示并提高预测的准确性。在Transformer编码器中引入一个蒸馏令牌,使学生模型能在不同的数据集上向老师学习。通过利用来自不同源域的知识,模型能够捕捉到与图像失真相关的基本特征,增强模型的泛化能力。为从不同的角度细化感知信息,引入模拟多个评审员的多个类令牌。提高模型的可解释性,降低预测的不确定性。引入一种称为注意力评分的机制,该机制将来自编码器的注意力评分矩阵与解码器后面的MLP头部相结合,以细化最终质量分数。
-
公开(公告)号:CN119832599A
公开(公告)日:2025-04-15
申请号:CN202411938930.1
申请日:2024-12-26
Applicant: 厦门大学
IPC: G06V40/10 , G06V10/80 , G06V10/44 , G06V10/82 , G06V10/774 , G06N3/0895
Abstract: 本发明公开了一种用于集成多模态行人再识别的跨模态分组对齐方法,包括以下步骤:S1、利用共享的同一个图像特征提取器对RGB图像和草图进行特征提取,并利用文本特征提取器对文本进行特征提取;S2、使用融合特征提取器对草图和文本的特征进行特征融合;S3、局部特征通过过滤处理将冗余的特征滤除,再通过跨模态域内对比学习模块进行模态间细粒度特征深度融合,实现细粒度特征对齐;S4、全局特征通过超平面约束模块,将同一行人id的三种模态的全局特征在共享空间中的分布约束到一个超平面中;S5、同一个超平面中的全局特征通过对比学习将三种模态进行对齐,最终实现文本检索RGB图像、草图检索RGB图像、文本融合草图检索RGB图像。
-
公开(公告)号:CN119723423A
公开(公告)日:2025-03-28
申请号:CN202411959661.7
申请日:2024-12-30
Applicant: 厦门大学
Abstract: 本发明公开一种自适应的多模态协同视频理解系统及方法,通过自适应的多模态协同处理框架解决长视频理解的挑战。不同于现有技术主要依赖增加采样密度的预训练模型或使用专有模型,本发明设计了一套完整的信息提取和融合机制,能够智能地整合视频中的多维度信息。系统首先通过解耦文本提示将用户查询解析为多维度的信息检索需求,然后通过并行化处理实现同时提取视频中的多模态信息,再采用基于相似度的自适应采样机制实现信息的精准提取以确保处理效率,最后通过信息融合与循环增强机制,使得系统能够持续优化理解结果,直到达到预期的理解深度。本发明能够节约更多的GPU资源,灵活度更高,完全依赖于开源模型,使用成本将极大减少。
-
公开(公告)号:CN119648788A
公开(公告)日:2025-03-18
申请号:CN202411674602.5
申请日:2024-11-21
Applicant: 厦门大学
IPC: G06T7/73 , G06V10/764 , G06V10/82 , G06V10/44 , G06N3/0464 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开了一种基于语义驱动Transformer模型的弱监督目标定位方法,包括以下步骤:S1、对待检测的图片进行预处理,用于将待检测的图片转换为适合神经网络处理的格式;S2、将预处理后待检测的图片及其对应的图片级别的标签送入神经网络;所述神经网络包括Transformer主干网络、语义内核集成模块SKI和语义增强适配模块SBA;S3、神经网络对图片进行处理,在训练过程中输出待检测图片对应每一个类别的概率数值;S4、在测试过程中输出待检测图片预测的框的坐标、类别和得分;本发明通过使注意力图更加专注于前景区域,在弱监督环境下实现了更精确的、语义感知的目标定位,从而提高了模型的解释精度和相关性。
-
公开(公告)号:CN119648568A
公开(公告)日:2025-03-18
申请号:CN202411786947.X
申请日:2024-12-06
Applicant: 厦门大学
IPC: G06T5/70 , G06F40/289 , G06N3/045 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,涉及图像生成技术领域。所述方法通过设计分层引导机制计算Unet模型部分的中间层和上采样层的交叉注意力图的控制损失、抑制损失和修补损失,并根据分层引导设计的能量函数计算损失再梯度回传更新潜在特征,从而在低分辩下结合控制损失与抑制损失的实现目标有效的布局控制,在中和高分辨率下结合控制损失与修补损失去确保目标形状控制。本发明提供的一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,解决了基于轨迹的图像生成模型的不能够稳定控制布局和不能对目标精细控制的缺陷,同时不需要额外训练。
-
公开(公告)号:CN119625011A
公开(公告)日:2025-03-14
申请号:CN202411674588.9
申请日:2024-11-21
Applicant: 厦门大学
IPC: G06T7/136 , G06V10/80 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/0895 , G06N3/0464
Abstract: 本发明公开了一种图像增强提示解码网络的三维指向性目标分割方法,包括以下步骤:S1、特征提取;S2、多视角语义嵌入策略和查询生成;S3、提示感知解码器;S4、训练损失:训练损失包括基础损失、概率损失和对比学习损失;本发明以自上而下的方法利用多视角图像和任务驱动的信息来释放模型的推理能力;MSE使用CLIP提取二维图像特征,然后与三维点云特征融合,以显著增强视觉特征;PAD使用任务驱动的提示信号来指导解码过程,通过任务驱动提示模块,生成了强调每个查询与文本的相关性的提示,有效地将任务特定的信息注入到模型中,并显著降低了学习的复杂性。
-
公开(公告)号:CN119516038A
公开(公告)日:2025-02-25
申请号:CN202411392299.X
申请日:2024-10-08
Applicant: 厦门大学
IPC: G06T11/60 , G06T5/60 , G06T5/70 , G06N3/0455
Abstract: 本发明提供一种基于文本指导的图像编辑方法、装置、设备和介质,将输入图片、源提示词和目标提示词输入到模型;输入图片首先经过inversion过程被加噪为噪声图片,然后分别进入重建分支和编辑分支,所述重建分支的重建过程的交叉注意力图会注入到编辑分支中以保持图片的结构与内容;在inversion过程采用对比注意力聚焦策略,对于不同程度的注意力泄漏情况适应性地将注意力精准的引导至编辑区域;随后在编辑分支中使用掩膜引导的混合采样技术,为编辑区域和非编辑区域提供不同的条件指导,以保证图像中变化和保留的平衡整合在编辑过程中仅对需要编辑的区域进行修改,阻止对非编辑区域产生不必要的编辑,防止发生过度编辑的现象。
-
公开(公告)号:CN119441939A
公开(公告)日:2025-02-14
申请号:CN202411518245.3
申请日:2024-10-29
Applicant: 厦门大学
IPC: G06F18/24 , G06V40/16 , G06V40/40 , G06F18/213 , G06F18/25 , G06F18/22 , G06N3/0499 , G06N3/047 , G06N3/0895
Abstract: 本发明公开了一种基于多模态文本增强的跨域人脸防伪造检测方法及装置,涉及网络信息安全技术领域,方法包括:将两类描述文本输入预训练的文本编码器提取代表真实/欺骗的文本类别特征,将图像输入预训练的视觉编码器提取视觉特征;在文本编码器的每一层添加可训练的文本提示,在视觉编码器的每一层添加可训练的视觉提示,视觉编码器的每一层视觉提示由当前层的文本提示经过全连接层转换得到;将PFT模块及TIM模块嵌入到文本编码器和视觉编码器每一层的中间层实现特征交互融合,获取文本类别特征与视觉特征之间的余弦相似度及掩膜,进行人脸真假类别。本发明基于PFT模块及TIM模块,使得模态特征交互在特征提取的过程中同时完成,提升了跨域检测性能。
-
公开(公告)号:CN119205801A
公开(公告)日:2024-12-27
申请号:CN202411248458.9
申请日:2024-09-06
Applicant: 厦门大学
IPC: G06T7/10
Abstract: 一种基于SAM模型的快速且显存友好的图像分割方法,所述图像分割方法包括如下步骤:第一步,基于SAM模型训练建立U‑SAM模型;该U‑SAM模型采用如下步骤进行训练:步骤S1:建立SAM模型和U‑SAM模型;通过知识蒸馏压缩SAM模型的图像编码器,得到U‑SAM模型的语义&尺度感知图像编码器,以提升SAM的语义感知能力;步骤S2:冻结SAM模型相关参数,保留可提示分割能力,训练U‑SAM模型的双子令牌掩码解码器,解决难以控制提示嵌入存在的问题。第二步,利用所述U‑SAM模型实现可提示分割和通用图像分割;由此,可通过一个快速且显存友好的框架实现提示和通用的分割任务。
-
公开(公告)号:CN119106117A
公开(公告)日:2024-12-10
申请号:CN202411037233.9
申请日:2024-07-31
Applicant: 厦门大学
IPC: G06F16/332 , G06F16/33 , G06F18/214
Abstract: 本发明涉及一种面向量化大语言模型高效微调的低秩矩阵的缩放调节方法及对话生成方法,本发明在权重微调的过程中,对所有的数据会进行逐批次的迭代,迭代过程用以计算前向计算和反向计算,以进行模型优化。且在每次迭代中考虑量化比特宽度带来的影响,避免因为不同比特量化带来的误差导致欠拟合和过拟合问题。同时,在每次迭代中本专利使用和量化网络同粒度的低秩矩阵,这样在量化微调结束后可以保持量化格式的不变。因此解决现有技术中不同量化位宽下低秩矩阵的缩放调节不当等问题,提高了大语言模型微调的性能。
-
-
-
-
-
-
-
-
-