基于深度自注意力变换网络的图像压缩方法

    公开(公告)号:CN114494472B

    公开(公告)日:2025-03-07

    申请号:CN202111676530.4

    申请日:2021-12-31

    Abstract: 本发明公开了一种基于深度自注意力变换网络的图像压缩方法。该方法的具体步骤如下:S1,收集和整理规范的高清图像数据集,构建神经网络训练集、测试集和交叉验证集;S2,建立多层基于深度自注意力变换的神经网络,神经网络包括编码网络和解码网络,在编码网络和解码网络中均加入深度自注意力变换模块用于特征信息聚合;训练编码网络和解码网络;S3,将图像输入编码网络得到输出数据经过量化和熵编码得到压缩的码流;S4,通过与编码网络对称的解码网络重建恢复出压缩后的图像。本发明的图像压缩方法,与传统图像压缩方法BPG在大量测试图像上的同等比较中,可以在相同质量上平均节省20%左右的码率。

    一种运动可分辨的无透镜动态成像系统及方法

    公开(公告)号:CN119291912A

    公开(公告)日:2025-01-10

    申请号:CN202411466148.4

    申请日:2024-10-21

    Applicant: 南京大学

    Abstract: 本发明提出一种运动可分辨的无透镜动态成像系统及方法。该系统包括激光光源、二值化光学掩膜、图像传感器和图像处理设备;激光光源发出的相干光由二值化光学掩膜编码调制后,再传播到达图像传感器,由图像传感器采集运动样本的多帧衍射图像,并将采集的图像传输给图像处理设备,图像处理设备利用神经网络方法对图像进行重建。本发明图像重建方法将无透镜衍射传播模型的物理先验知识融入到隐式神经表示中,并设计时空先验损失和双向记忆训练方法进行网络训练,能够有效地降低运动目标成像所产生的伪影、模糊,获得高分辨率、高质量成像结果。

    一种可变码率的语音压缩方法
    43.
    发明公开

    公开(公告)号:CN118314911A

    公开(公告)日:2024-07-09

    申请号:CN202410206215.2

    申请日:2024-02-26

    Applicant: 南京大学

    Inventor: 马展 孙劭涵 陈彤

    Abstract: 本发明公开了一种可变码率的语音压缩方法。其步骤如下:获取固定长度的语音片段数据集;构建自编码器,自编码器包括编码端模块和解码端模块,编码端模块和解码端模块均包括多层多尺度特征提取模块和自适应缩放层;将语音片段数据输入编码端模块,得到中间特征向量,然后中间特征向量再分别通过超网络得到语音数据的超先验表示以及被量化后通过上下文预测模型得到语音数据的潜在表示;利用码率‑失真权衡参数来优化整体码率和压缩失真的相互关系;将超先验表示和潜在表示共同输入到熵编码模块得到高斯熵模型,然后通过自编码器的解码端模块重建语音。本发明可以在低码率的条件下提供更佳的重建效果,同时实现了可变码率的功能。

    一种面向哈希隐式神经表示的正则化装置及其方法

    公开(公告)号:CN117408316A

    公开(公告)日:2024-01-16

    申请号:CN202311420823.5

    申请日:2023-10-30

    Applicant: 南京大学

    Abstract: 本发明提出了一种面向哈希隐式神经表示的正则化装置及其方法。其装置包括哈希编码表、轻量级的神经网络以及分析函数模块,其中,输入坐标送入分析函数模块得到对应特征,以及输入坐标送入哈希编码表查询得到对应位置的哈希键值;对应特征和哈希键值拼接起来送入神经网络。本发明正则化的方法可以解决当前基于哈希的隐式神经表示上的插值结果有噪声的问题,提高了插值性能。

    基于图像显著性与用户交互的人眼注视点预测方法

    公开(公告)号:CN117218711A

    公开(公告)日:2023-12-12

    申请号:CN202311216536.2

    申请日:2023-09-20

    Applicant: 南京大学

    Abstract: 本发明提供了一种基于图像显著性与用户交互的人眼注视点预测方法。该方法包括如下步骤:对采集到的用户与设备之间的交互信息进行分类并编码;将编码后的一维用户交互信息与画面帧的三维RGB数据进行拼接,组成四维数据,作为人眼注视点预测网络的输入;对采集到的用户注视点信息进行数据清洗,作为人眼注视点预测网络训练和测试的真值;构建人眼注视点预测网络,在图像显著性检测网络的基础上,加入用户交互信息通道;训练带有用户交互信息的人眼注视点预测网络,并实际部署进行预测性能验证。本发明在图像显著性区域检测的基础上,辅以用户的交互信息,能够显著提升人眼注视点的预测准确度,为后续码率分配、质量评价等视觉任务提供优化空间。

    一种基于多任务融合的多相机低光照图像质量增强方法

    公开(公告)号:CN111986084B

    公开(公告)日:2023-12-12

    申请号:CN202010765138.6

    申请日:2020-08-03

    Applicant: 南京大学

    Inventor: 郭珮瑶 马展

    Abstract: 本发明公开了一种基于多任务融合的多相机低光照图像质量增强方法。该方法利用成像系统同时获取的低光照条件下低分辨率次曝光的彩色图像和高分辨率优曝光的灰度图像对,生成高分辨率优曝光的彩色图像,具体步骤为:(1)生成训练使用的图像块对;(2)将图像质量增强任务分解为基于多相机输入的参考曝光补偿任务、参考着色任务、参考超分辨率任务,构建相应网络模型,并级联;(3)构建损失函数,使用优化器依次单独训练各网络,并基于此对整个级联网络进行端到端优化;(4)使用优化后的级联网络,对多相机在低光照下采集到的真实图像对进行质量增强,获得高分辨率优曝光的彩色图像,充分利用捕获图像信息,高效、可靠、经济地重建真实场景。

    一种在极低带宽条件下的卫星图像压缩方法

    公开(公告)号:CN116939213A

    公开(公告)日:2023-10-24

    申请号:CN202310739391.8

    申请日:2023-06-21

    Applicant: 南京大学

    Inventor: 马展 董沐晨 陆明

    Abstract: 本发明公开了一种在极低带宽条件下的卫星图像压缩方法。步骤如下:收集静态图像数据集;建立可变码率的图像编解码网络;训练编解码网络;在解码端嵌入生成对抗网络,并进行再次训练;在编解码器后嵌入超分网络,并再次训练;用户选择感兴趣区域,对选定区域进行压缩;解码端将码流还原成图像并显示;对用户未选定区域进行压缩;带宽富余时传输未选定区域,解码端拼接图像;进行超分辨率处理。本发明的图像传输方法,在极低带宽的限制下与JPEG等传统图像编码以及基于深度学习的图像编码方法在大量测试图片的同等比较中,可以在相同的码率下提供主观效果更佳的重建效果。

    基于在线联邦迁移学习的码率自适应策略高效训练方法

    公开(公告)号:CN116938887A

    公开(公告)日:2023-10-24

    申请号:CN202310687578.8

    申请日:2023-06-12

    Applicant: 南京大学

    Inventor: 陈浩 郑倩媛 马展

    Abstract: 本发明提供一种基于在线联邦迁移学习的码率自适应策略高效训练方法,步骤为:(1)用户客户端经过动态网络条件鉴别器鉴别网络类型和交通方式;(2)根据鉴别器的鉴别结果将用户聚类成规定的组别,组内用户进行联邦学习;(3)每一组的中心节点初始化加载预训练离线模型,作为初始全局模型;(4)中心节点将全局模型参数发送给组内所有用户;(5)组内用户以全局模型为基础,在线迁移训练本地模型参数,定期向中心节点发送本地更新模型参数;(6)中心节点聚合组内所有用户模型参数训练得到全局模型;(7)重复上述步骤,直至中心节点的聚合全局模型训练完毕。本发明在保证用户实时视频会话质量的同时,大大缩短在线学习模型的训练时间。

    一种基于序贯因果建模的自适应比特率控制方法

    公开(公告)号:CN116347170A

    公开(公告)日:2023-06-27

    申请号:CN202310232865.X

    申请日:2023-03-13

    Applicant: 南京大学

    Inventor: 陈浩 徐泊巍 马展

    Abstract: 本发明提供了一种基于序贯因果建模的自适应比特率控制方法,包括如下步骤:1、离线训练阶段:(1)取得离线最优轨迹并训练Transformer模型;(2)训练对应不同网络条件的参数映射表;2、在线推理阶段:(1)基于参数映射表,模型选择视频播放前的预期未来回报作为初始参数;(2)模型输入一段由过去的观测、动作以及预期未来回报组成的序列作为输入,并输出预测的动作,即下一个视频块的码率;(3)按照预测码率传输下一视频块,取得下一时刻的观测和回报,并作为下一次决策的输入序列的一部分;(4)在每一次决策后检查当前缓冲区的大小和网络带宽状况,启用参数更新机制以辅助未来的决策。本发明方法能极大地提升用户体验质量。

Patent Agency Ranking