-
公开(公告)号:CN119906827A
公开(公告)日:2025-04-29
申请号:CN202510020886.4
申请日:2025-01-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H04N19/42 , H04N19/124 , G06T9/00 , H04N19/17
Abstract: 本发明公开一种多模态引导的高保真度图像压缩方法、系统及介质,本发明首先通过预训练好的文本编码器和音频编码器提取与图像特征对齐的文本和音频特征,然后将它们与图像特征输入到多模态特征融合模块中进行融合。该多模态特征融合模块利用仿射变换的方法从空间和通道两个维度提取并融合多模态特征。通过在编码器端使用多模态特征融合方式进行引导,不仅增强了特征的提取和表达能力,还可以更好地预测潜在特征的分布。此外,本发明设计了鉴别器以进行多模态引导的生成对抗训练,从而获得高保真度的图像。