一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质

    公开(公告)号:CN118052911B

    公开(公告)日:2025-02-18

    申请号:CN202410281747.2

    申请日:2024-03-12

    Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。

    关键点生成方法及其模型的训练方法、视频生成方法

    公开(公告)号:CN118646938A

    公开(公告)日:2024-09-13

    申请号:CN202410706471.8

    申请日:2024-06-03

    Abstract: 本公开提供了一种关键点生成方法及其模型的训练方法、视频生成方法。训练方法包括:获取训练样本;将训练样本输入关键点生成模型,根据关键点生成模型输出第一视频帧至第三视频帧之间的视频帧的关键点预测数据;根据目标关节点的运动约束条件、关键点样本数据和关键点预测数据计算损失误差;运动约束条件包括多个目标关节点中相邻两个目标关节点在各视频帧中的相对位置关系不变;根据损失误差调整关键点生成模型的网络参数,直至满足迭代停止条件。本公开通过关键点生成模型预测两帧视频帧中人物动作关键点,并根据目标关节点的运动约束条件、关键点样本数据和关键点预测数据计算损失误差,使关键点生成模型预测值与真实值更接近,预测更准确。

    一种基于多重损失和分辨率的图像转图像的方法

    公开(公告)号:CN116385270B

    公开(公告)日:2024-08-16

    申请号:CN202310412411.0

    申请日:2023-04-18

    Abstract: 本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。

    图像缺陷分类方法及装置、存储介质、计算设备

    公开(公告)号:CN118196474A

    公开(公告)日:2024-06-14

    申请号:CN202410133229.6

    申请日:2024-01-30

    Abstract: 本申请提供了一种图像缺陷分类方法及装置、存储介质、计算设备,该图像缺陷分类方法包括:获取原始图像,并将原始图像划分为N个区域块,原始图像中部分区域块具有缺陷,N为正整数;提取N个区域块的第一视觉特征;对各个区域块的第一视觉特征进行编码,以得到各个区域块的第二视觉特征;至少根据各个区域块的第二视觉特征计算各个区域块对应的目标权重;根据各个区域块的第二视觉特征以及对应的目标权重进行特征融合,以获得融合特征;根据融合特征计算原始图像的缺陷类别。本申请提供了一种提升缺陷图像的缺陷分类准确性的方案。

    一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质

    公开(公告)号:CN118052911A

    公开(公告)日:2024-05-17

    申请号:CN202410281747.2

    申请日:2024-03-12

    Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。

    人脸图像生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN117372553B

    公开(公告)日:2024-05-10

    申请号:CN202311085684.5

    申请日:2023-08-25

    Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,方法包括:确定人脸图像生成模型,包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入图像编码子模型,得到人脸图像编码特征;将音频编码特征输入音频映射子模型,得到权重向量;采用权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,多个记忆口型编码特征对应于不同类型的口型;将音频编码特征、人脸图像编码特征以及融合口型特征,输入解码子模型,得到人脸生成图像。上述方案有助于提高人脸生成图像与驱动音频的口型匹配度。

Patent Agency Ranking