-
公开(公告)号:CN117372291A
公开(公告)日:2024-01-09
申请号:CN202311169310.1
申请日:2023-09-12
Applicant: 哈尔滨工业大学
Abstract: 本发明提出一种利用通用模型对比范式提升图像复原的方法,该方法使用指数移动平均的方式得到目标模型在不同训练迭代的历史版本作为负样本模型。然后定义SPN损失函数,在特征空间中拉大目标模型表示与负样本模型表示之间的距离。此外,还同时引入多个历史模型构造多个负样本,使得训练更加稳定。相比于现有通过手工设定负样本的对比学习方法,该方法对比学习范式无需特定任务先验,对不同图像复原任务具有泛化能力。可以很容易地和已有方法相结合,仅需将SPN损失加入原有目标函数即可。通过在图像超分辨率、去雨、去雾等任务上对不同模型进行重训练,实验结果表明,该方法对比学习框架可以显著提升各个模型的性能,优于现有对比学习技术。
-
公开(公告)号:CN120031718A
公开(公告)日:2025-05-23
申请号:CN202510111785.8
申请日:2025-01-24
Applicant: 哈尔滨工业大学
IPC: G06T3/4053 , G06T3/4046 , G06N3/0475 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种基于文本信息指导的人脸超分辨率方法,包括以下步骤:步骤一、文本描述生成:通过多模态大语言模型生成文本描述;步骤二、潜在空间编码:将低分辨率人脸图像和文本描述映射到潜在特征空间,利用预训练的编码器对图像进行紧凑表示;步骤三、文本信息融合:通过基于交叉注意力机制的方法,将生成的文本描述嵌入到视觉特征处理过程中,形成文本‑视觉联合表示;步骤四、残差扩散生成模块:在潜在空间中,通过残差连接的马尔可夫链实现低分辨率到高分辨率图像的生成;步骤五、文本感知损失优化:通过最小化潜在空间恢复误差和文本一致性误差,优化生成结果的图像质量和语义一致性。相较于其他生成模型,TFSR具有最少的参数量、最高的采样效率和最佳的FID分数。
-
公开(公告)号:CN119851017A
公开(公告)日:2025-04-18
申请号:CN202411913875.0
申请日:2024-12-24
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于Mamba与混合专家模型的病理图像分类系统及方法,所述病理图像分类系统提出结合Mamba和专家混合模型的优势,用于WSI分类的挑战性任务,并开发了一种新颖的基于Mamba的层次化网络,称为Mamba‑WSI。为了在保证效率的同时促进特征表示,Mamba‑WSI引入了伪包内和跨伪包的双向Mamba块,以探索伪包内实例之间的相关性和全局伪包表示。同时,本发明提出动态记忆库来存储与标签预测相关的历史信息,并设计了跨伪包融合模块,以从动态更新的字典模块中融合出有效的信息,以增强当前伪包表示和全局建模。此外,专家混合模块能够适应性地协调全局和局部的包表示,以实现鲁棒的包标签预测。
-
公开(公告)号:CN118968579A
公开(公告)日:2024-11-15
申请号:CN202410903224.7
申请日:2024-07-08
Applicant: 哈尔滨工业大学
Abstract: 本发明提出一种基于用户提示的音频驱动数字人生成系统及方法,其中系统包括:数据库模块、音频特征提取模块、AIGC生成人脸画像模块、Audioface模块、基于音频驱动的人脸图像模块和基于音频驱动的数字人动作生成模块。本发明实现了基于用户提示的音频驱动数字人生成,根据用户的输入提示实现内容生成,赋予了数字人高度的个性化特征和自然性行为表现,使得本发明具有重要的应用价值和前景,随着相关领域的不断发展和完善,本发明能为数字娱乐、虚拟现实、人机交互等领域带来更加丰富的体验和应用场景。
-
公开(公告)号:CN119068259A
公开(公告)日:2024-12-03
申请号:CN202411211635.6
申请日:2024-08-30
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/80 , G06V10/40 , G06V10/26 , G06N3/0455 , G06V10/44 , G06N3/047 , G06N3/048 , G06N3/0895
Abstract: 本发明公开了一种基于在线伪监督与动态互学的病理图像分类方法及系统,为实现判别性和紧凑的表示,设计自适应存储库AMB收集当前WSI中最有信息量的组成部分,并制定自我进步的特征融合SPFF模块,将AMB中的标签相关历史信息和即时语义变化进行整合,以增强当前伪包标记表示;设计决策修正伪标签DRPL生成模块,以探索伪包表示和包标签预测之间的内在联系,从而生成更可靠的伪标签;为缓解冗余和模糊的表示,借用了伪标签预测的类别先验,以促进标签相关的特征学习并更新AMB,从而形成特征表示和伪标签生成之间的动态互学习与优化;开发动态决策DDM模块,以协调包信息的显性和隐性表示,从而实现更稳健的决策。
-
公开(公告)号:CN118097745A
公开(公告)日:2024-05-28
申请号:CN202410175752.5
申请日:2024-02-08
Applicant: 哈尔滨工业大学
IPC: G06V40/16 , G06V10/82 , G06V10/774 , G06V10/80 , G06F21/62
Abstract: 本发明涉及一种基于深度光学成像的隐私保护抑郁症识别方法、系统、计算机设备及介质,该方法包括如下步骤:S1、构建光学模型,预训练带有隐私保护能力的透镜;S2、构建深度模型,并引入情感信息数据;S3、向光学模型和深度模型引入抑郁症信息数据;S4、融合情感信息与抑郁症信息并进行抑郁症水平预测。本发明通过设计基于深度光学的抑郁症识别模型,能够对面部图像进行抑郁症识别并且不产生任何隐私信息,同时确保识别的准确度。通过对比本模型与其他方法在识别性能与隐私保护性能的平衡上,本发明设计的模型具有最好的表现。与不同程度的图像模糊方法对比,本发明的隐私保护策略可以在保障识别误差的情况下,取得最佳的隐私保护性能。
-
公开(公告)号:CN119540059A
公开(公告)日:2025-02-28
申请号:CN202411590182.2
申请日:2024-11-08
Applicant: 哈尔滨工业大学
Abstract: 本发明的一种基于视觉语言先验的人脸超分辨率方法,包括如下步骤:步骤一、将低分辨率人脸图像送入预训练的视觉‑语言大模型中,提取视觉‑语言多元表示;步骤二、构造视觉语言先验辅助的人脸超分辨率网络,融合视觉语言先验信息;步骤三、将低分辨率人脸图像和步骤一提取的视觉语言多元表示,送入到步骤二的网络中得到超分辨率结果,得到恢复的高质量人脸图像。与现有主流的人脸超分辨率方法(FSRNet、DIC、SISN、SFMNet、FaceFormer、WFEN)对比,本发明恢复的人脸图像在客观评价指标和主观视觉质量上均表现更优。
-
公开(公告)号:CN119131405A
公开(公告)日:2024-12-13
申请号:CN202410902852.3
申请日:2024-07-08
Applicant: 哈尔滨工业大学
IPC: G06V10/30 , G06V10/42 , G06V10/44 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明提出一种基于全局语义引导的夜间图像去雨方法,包括:步骤1:生成RGB‑红外双模态夜间带雨图像数据集#imgabs0#步骤2:构建基于红外引导的RGB图像去雨模型,将RGB带雨图像#imgabs1#和对应的红外图像#imgabs2#输入基于红外引导的RGB图像去雨模型中进行卷积、特征融合、编码、解码、特征的补偿和选择,输出初步去雨后的图像。步骤3:将全局语义引导模块引入RGB图像去雨模型中,输出最终去雨后的图像。本发明构建的IRDeNet方法结合了不同类型的卷积神经网络和包括空间注意力机制、通道注意力机制以及自注意力机制在内的注意力机制,保证了模型的全局和局部特征建模与提取的能力;本发明将RGB图像和红外图像相融合来用于夜间图像去雨任务,去雨效果显著提高。
-
公开(公告)号:CN118799630A
公开(公告)日:2024-10-18
申请号:CN202410801194.9
申请日:2024-06-20
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06N3/0464 , G06N3/0455 , G06N3/08 , G06V10/80 , G06V10/74 , G06V10/774 , G16H30/00 , G16H70/60
Abstract: 本发明公开了一种基于自我激励多示例学习的病理图像分类方法,所述方法通过探索实例之间的潜在关系,以及特征表达与标签预测之间的互惠关系促进更好和更可靠的决策。本发明通过引入伪包预测所提供的标签相关类别先验,捕获并聚合肿瘤特征表达,以实现高准确率的病理图像标签预测。反过来,基于预测结果优化网络,进一步提升特征表达,以改善伪包标签预测,形成了自我激励的学习。本发明引入多级特征融合策略去探索当前实例和全局历史实例知识,同时构造时间对比模块提高特征表达的鲁棒性缓解表征偏差和过拟合问题。此外,引入自我激励的特征融合模块利用伪包预测和特征表达的相互细化机制,增强了病理图像分类的准确性和可靠性。
-
公开(公告)号:CN118195905A
公开(公告)日:2024-06-14
申请号:CN202410324579.0
申请日:2024-03-21
Applicant: 哈尔滨工业大学
IPC: G06T3/4076 , G06T5/60 , G06V10/42 , G06V10/44 , G06V10/82
Abstract: 本发明提出一种基于状态空间模型的图像复原方法,该方法将残差状态空间模块作为核心构建模块,包含2维视觉状态空间模型和动态卷积结构。其中视觉状态空间模块将状态空间模型适配于图像的空间建模,依赖于2D选择扫描模块,通过多个方向的特征扫描捕获2D空间依赖性。此外,本发明还提出基于动态卷积的局部增强前向网络,进一步改善局部‑全局特征建模。MambaSR的整体架构包括浅层特征提取,深层特征提取以及最终的高质量图像重建。该方法在多个图像超分辨率准测试中超越了现有卷积神经网络和Transformer等主流方法,同时具有全局感受野和线性计算复杂度。实验结果证明了状态空间模型如Mamba在底层视觉任务中的潜力。
-
-
-
-
-
-
-
-
-