-
公开(公告)号:CN120031718A
公开(公告)日:2025-05-23
申请号:CN202510111785.8
申请日:2025-01-24
Applicant: 哈尔滨工业大学
IPC: G06T3/4053 , G06T3/4046 , G06N3/0475 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种基于文本信息指导的人脸超分辨率方法,包括以下步骤:步骤一、文本描述生成:通过多模态大语言模型生成文本描述;步骤二、潜在空间编码:将低分辨率人脸图像和文本描述映射到潜在特征空间,利用预训练的编码器对图像进行紧凑表示;步骤三、文本信息融合:通过基于交叉注意力机制的方法,将生成的文本描述嵌入到视觉特征处理过程中,形成文本‑视觉联合表示;步骤四、残差扩散生成模块:在潜在空间中,通过残差连接的马尔可夫链实现低分辨率到高分辨率图像的生成;步骤五、文本感知损失优化:通过最小化潜在空间恢复误差和文本一致性误差,优化生成结果的图像质量和语义一致性。相较于其他生成模型,TFSR具有最少的参数量、最高的采样效率和最佳的FID分数。
-
公开(公告)号:CN119540059A
公开(公告)日:2025-02-28
申请号:CN202411590182.2
申请日:2024-11-08
Applicant: 哈尔滨工业大学
Abstract: 本发明的一种基于视觉语言先验的人脸超分辨率方法,包括如下步骤:步骤一、将低分辨率人脸图像送入预训练的视觉‑语言大模型中,提取视觉‑语言多元表示;步骤二、构造视觉语言先验辅助的人脸超分辨率网络,融合视觉语言先验信息;步骤三、将低分辨率人脸图像和步骤一提取的视觉语言多元表示,送入到步骤二的网络中得到超分辨率结果,得到恢复的高质量人脸图像。与现有主流的人脸超分辨率方法(FSRNet、DIC、SISN、SFMNet、FaceFormer、WFEN)对比,本发明恢复的人脸图像在客观评价指标和主观视觉质量上均表现更优。
-