-
公开(公告)号:CN117974450B
公开(公告)日:2024-10-11
申请号:CN202410361514.3
申请日:2024-03-28
Applicant: 华南理工大学
IPC: G06T3/4076 , G06T5/70 , G06T5/60
Abstract: 本发明公开了一种基于梯度优化扩散模型的图像超分辨率方法、系统及介质,方法包括下述步骤:将像素空间投影至低维度的隐空间,在隐空间建立条件扩散模型的去噪重建过程;计算去噪中间变量与输入低分辨率图像的一致性约束;动态放缩去噪中间变量与输入低分辨率图像的一致性约束;使用梯度优化方法增强去噪中间变量与输入低分辨率图像的表示一致性;提取输入低分辨率图像的轮廓掩码作为定位引导信息,从而融合梯度优化前后的去噪变量;将完成去噪步数后得到的去噪变量的潜在表示通过预训练的解码器投影到像素空间,得到高分辨率的去噪图像。本发明可以有效解决图像超分辨率任务中的不稳定和不一致性的问题。
-
公开(公告)号:CN118070816A
公开(公告)日:2024-05-24
申请号:CN202410163716.7
申请日:2024-02-05
Applicant: 华南理工大学
IPC: G06F40/35 , G06V10/40 , G06V10/74 , G06V10/80 , G06F18/213 , G06F18/25 , G06F16/332 , G06V30/18 , G06V30/19
Abstract: 本发明公开了一种基于强视觉语义的混合专家视觉问答方法及系统,方法包括:对于图像和问题组成的输入样本,细粒度地从问题文本和图像中提取特征,建立图像对象和图像文本之间的强语义联系;提出注意力过滤模块对输入特征进行冗余过滤,生成加权特征表示;利用多模态特征融合网络学习不同特征之间的相关性,获取融合的多模态特征表示;将融合的多模态特征表示输入评估专家网络,评估样本类型和相关性,输出样本置信度;动态解码专家网络以样本置信度为指导,灵活调整答案预测策略。本发明从多个维度增强视觉语义,提升模型的阅读理解能力,同时能够智能地回答不同类型的问题,从而适应复杂多样的视觉问答场景。
-
公开(公告)号:CN117974450A
公开(公告)日:2024-05-03
申请号:CN202410361514.3
申请日:2024-03-28
Applicant: 华南理工大学
IPC: G06T3/4076 , G06T5/70 , G06T5/60
Abstract: 本发明公开了一种基于梯度优化扩散模型的图像超分辨率方法、系统及介质,方法包括下述步骤:将像素空间投影至低维度的隐空间,在隐空间建立条件扩散模型的去噪重建过程;计算去噪中间变量与输入低分辨率图像的一致性约束;动态放缩去噪中间变量与输入低分辨率图像的一致性约束;使用梯度优化方法增强去噪中间变量与输入低分辨率图像的表示一致性;提取输入低分辨率图像的轮廓掩码作为定位引导信息,从而融合梯度优化前后的去噪变量;将完成去噪步数后得到的去噪变量的潜在表示通过预训练的解码器投影到像素空间,得到高分辨率的去噪图像。本发明可以有效解决图像超分辨率任务中的不稳定和不一致性的问题。
-
-