一种基于姿势对抗网络的人脸视频生成方法及系统

    公开(公告)号:CN118379777A

    公开(公告)日:2024-07-23

    申请号:CN202410807403.0

    申请日:2024-06-21

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于姿势对抗网络的人脸视频生成方法及系统,涉及图像处理技术领域,方法包括:构建人脸视频生成模型,包括图像编码器、音频编码器、头部运动预测模块、姿势编码器和解码器,所述人脸视频生成模型接收人脸图像和语音音频,生成人脸说话视频;获取训练数据集并对人脸视频生成模型进行预训练;构建唇型同步判别器作为判别器,对预训练人脸视频生成模型进行生成对抗训练;利用训练好的人脸视频生成模型实现人脸视频生成。本发明利用音频信号的动态特性对头部运动进行建模,并结合生成对抗网络与唇型同步判别器提高人脸视频的唇形同步精度,同时兼顾视频的逼真度,使得其更加真实、自然,从而为各种应用场景提供了更多的灵活性。

    基于宽度学习的多视图的癌症基因数据聚类集成方法及装置

    公开(公告)号:CN118155731A

    公开(公告)日:2024-06-07

    申请号:CN202410311105.2

    申请日:2024-03-19

    Abstract: 本发明公开了一种基于宽度学习的多视图的癌症基因数据聚类集成方法及装置,包括:构建自编码器模型,确定经训练的子空间自表达结构的系数矩阵,基于该系数矩阵对自编码器模型进行训练,多视图的癌症基因数据输入经训练的自编码器模型,得到特征处理后的样本矩阵;对特征处理后的样本矩阵进行聚类,得到多个基础聚类结果并作为集成池中的集成成员,以构建模糊划分矩阵和置信度矩阵;构建基于第二宽度学习网络的聚类集成模型,对聚类集成模型进行训练,得到经训练的聚类集成模型,将模糊划分矩阵输入经训练的聚类集成模型,得到软集成结果,对软集成结果进行聚类,得到多视图的癌症基因数据的聚类结果,有效提升网络模型的鲁棒性和准确性。

    基于三维几何失真的MIV沉浸式视频编码率失真优化方法

    公开(公告)号:CN117440158B

    公开(公告)日:2024-04-12

    申请号:CN202311759886.3

    申请日:2023-12-20

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于三维几何失真的MIV沉浸式视频编码率失真优化方法,涉及视频编码领域,包括:S1,基于MIV编码平台编码沉浸式视频序列,生成图集后,计算与深度映射范围系数;S2,使用支持MIV标准的二维视频编码器编码沉浸式视频几何图集时,构建三维几何失真与均方误差的关系模型;S3,根据三维几何失真与均方误差的关系模型,计算三维几何失真系数;S4,根据三维几何失真系数,计算率失真优化模型中新的拉格朗日乘子,基于调整后的率失真优化模型编码当前CTU,以改善沉浸式视频渲染质量的率失真性能。本发明最终渲染的沉浸式视频质量与码率的率失真性能更好。

    全尺度特征细化轻量级图像超分辨率方法及装置

    公开(公告)号:CN117196960B

    公开(公告)日:2024-03-01

    申请号:CN202311475299.1

    申请日:2023-11-08

    Applicant: 华侨大学

    Abstract: 本发明公开了一种全尺度特征细化轻量级图像超分辨率方法及装置,涉及图像处理领域,该方法包括:构建全尺度特征细化轻量级图像超分辨率模型并训练,得到经训练的全尺度特征细化轻量级图像超分辨率模型,将低分辨率图像输入经训练的全尺度特征细化轻量级图像超分辨率模型,先经过第一卷积层得到第一特征图,第一特征图经过串联的K个特征蒸馏提取模块,每一个特征蒸馏提取模块的输出均传送至第二卷积层,并经过第三卷积层,得到第二特征图,第二特征图与第一特征图相加,得到最终特征图,最终特征图输入上采样模块,重建得到高分辨率图

    基于Vision-Mamba CNN的端到端图像压缩方法及装置

    公开(公告)号:CN120088349A

    公开(公告)日:2025-06-03

    申请号:CN202510562636.3

    申请日:2025-04-30

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于Vision‑Mamba CNN的端到端图像压缩方法及装置,涉及图像处理领域,包括:获取待压缩的图像并输入到经训练的图像压缩模型,先经过非线性变换网络,得到潜在表示并分别输入到第一量化器和超先验变换网络,得到量化后的潜在表示和超先验变换的潜在表示;超先验变换的潜在表示经过量化,并依次经过第二编码器、第二解码器和超先验反变换网络,得到超先验变换的第二潜在表示特征;量化后的潜在表示和超先验变换的第二潜在表示特征输入到上下文模块,得到高斯分布,量化后的潜在表示依次经过第一编码器和第一解码器并结合高斯分布,得到第一潜在表示特征并输入到非线性反变换网络,得到压缩后的图像,本发明解决了压缩效率与重建质量低的问题。

    基于三维人脸几何结构的无参考质量评估方法及装置

    公开(公告)号:CN119741304B

    公开(公告)日:2025-05-06

    申请号:CN202510262624.9

    申请日:2025-03-06

    Abstract: 本发明公开了一种基于三维人脸几何结构的无参考质量评估方法及装置,涉及计算机视觉领域,方法包括:三维人脸网格模型重建;计算映射关键点和提取关键点之间的欧几里得距离,获得几何一致性分数;用三维人脸分割算法划分人脸区域,计算高斯曲率得到区域曲率分数;计算模型表面的平滑度,检测模型表面是否存在不自然的突起或瑕疵,获得平滑度分数;将几何一致性分数、区域曲率分数和平滑度分数按照加权比例进行融合,输出三维人脸网格模型的综合质量分数。本发明无需依赖数据库中的标准人脸模型,能够基于人脸几何特征和区域性分析对单个重建的三维人脸网格模型质量进行全面评估,适用于智能美容、精准医疗等个性化重建场景。

    基于频域融合的大面积缺损视频修复方法及装置

    公开(公告)号:CN119863405A

    公开(公告)日:2025-04-22

    申请号:CN202510341442.0

    申请日:2025-03-21

    Applicant: 华侨大学

    Abstract: 本发明一种基于频域融合的大面积缺损视频修复方法及装置,涉及视频处理技术领域,针对现阶段缺损视频修复方法主要局限于小面积缺损场景,对大面积缺损的视频内容修复能力不足,难以生成合理的视觉修复结果的问题,提出了一种有效的解决方法,方法包括以下步骤:首先,获取缺损的视频帧序列,对视频帧序列进行下采样;接着,使用堆叠的频域融合残差块对下采样后的缺损视频帧进行全局信息建模,频域融合残差块由两个自适应频域交叉融合模块依次连接而成;然后,利用堆叠的时间Transformer模块优化多帧之间的时间一致性;最后,进行上采样以重建视频帧,得到最终修复的视频。本发明能够在大范围缺损区域中生成视觉上合理、内容流畅自然的视频修复效果。

Patent Agency Ranking