基于Swin Transformer的图像字幕压缩学习方法及终端

    公开(公告)号:CN116823974A

    公开(公告)日:2023-09-29

    申请号:CN202310601283.4

    申请日:2023-05-25

    Inventor: 陈斌 唐栋

    Abstract: 本发明公开了基于SwinTransformer的图像字幕压缩学习方法及终端,方法包括:获取原始图像,并对所述原始图像进行压缩感知处理,得到所述原始图像的测量值;将所述测量值输入基于SwinTransformer的图像特征提取模块,得到所述原始图像的图像特征;将所述图像特征输入图像字幕模块,得到所述原始图像的图像字幕。本发明可以将原始图像进行压缩感知后得到的测量值进行存储或传输,在需要进行图像字幕任务时,直接将测量值输入进行推理即可得到图像字幕,从而节省大量存储空间和加大传输效率,对图像字幕任务的实际应用很有帮助。

Patent Agency Ranking