图片的多标签分类方法、系统及电子设备

    公开(公告)号:CN118674995A

    公开(公告)日:2024-09-20

    申请号:CN202410909676.6

    申请日:2024-07-09

    Abstract: 本公开提供了一种图片的多标签分类方法、系统及电子设备。多标签分类方法包括:获取目标图片的第一图片特征;其中,第一图片特征包含冗余信息和噪音;基于多头注意力机制对第一图片特征进行压缩处理,以去除冗余信息,得到第二图片特征;基于稀疏编码对第二图片特征进行去噪处理,以得到目标图片特征;对目标图片特征所属的类别进行概率预测,以对目标图片进行多标签分类。基于多头注意力机制和稀疏编码依次对第一图片特征进行压缩和去噪处理,以去除第一图片特征中的以使得到的目标图片特征冗余信息和噪声,以使得到的目标图片特征只保留有价值的特征,进而使用该目标图片特征进行图片的多标签分类的效果更佳。

    关键点生成方法及其模型的训练方法、视频生成方法

    公开(公告)号:CN118646938A

    公开(公告)日:2024-09-13

    申请号:CN202410706471.8

    申请日:2024-06-03

    Abstract: 本公开提供了一种关键点生成方法及其模型的训练方法、视频生成方法。训练方法包括:获取训练样本;将训练样本输入关键点生成模型,根据关键点生成模型输出第一视频帧至第三视频帧之间的视频帧的关键点预测数据;根据目标关节点的运动约束条件、关键点样本数据和关键点预测数据计算损失误差;运动约束条件包括多个目标关节点中相邻两个目标关节点在各视频帧中的相对位置关系不变;根据损失误差调整关键点生成模型的网络参数,直至满足迭代停止条件。本公开通过关键点生成模型预测两帧视频帧中人物动作关键点,并根据目标关节点的运动约束条件、关键点样本数据和关键点预测数据计算损失误差,使关键点生成模型预测值与真实值更接近,预测更准确。

    一种基于多重损失和分辨率的图像转图像的方法

    公开(公告)号:CN116385270B

    公开(公告)日:2024-08-16

    申请号:CN202310412411.0

    申请日:2023-04-18

    Abstract: 本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。

    图像缺陷分类方法及装置、存储介质、计算设备

    公开(公告)号:CN118196474A

    公开(公告)日:2024-06-14

    申请号:CN202410133229.6

    申请日:2024-01-30

    Abstract: 本申请提供了一种图像缺陷分类方法及装置、存储介质、计算设备,该图像缺陷分类方法包括:获取原始图像,并将原始图像划分为N个区域块,原始图像中部分区域块具有缺陷,N为正整数;提取N个区域块的第一视觉特征;对各个区域块的第一视觉特征进行编码,以得到各个区域块的第二视觉特征;至少根据各个区域块的第二视觉特征计算各个区域块对应的目标权重;根据各个区域块的第二视觉特征以及对应的目标权重进行特征融合,以获得融合特征;根据融合特征计算原始图像的缺陷类别。本申请提供了一种提升缺陷图像的缺陷分类准确性的方案。

    一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质

    公开(公告)号:CN118052911A

    公开(公告)日:2024-05-17

    申请号:CN202410281747.2

    申请日:2024-03-12

    Abstract: 本申请提供一种基于深度学习和手部变换的语音驱动手部动作图像生成方法及系统、计算机可读存储介质。技术方案包括如下步骤:获取音频和相应的包含手部的人物图像;将所述音频输入变换网络得到相应的手部变换参数;将所述包含手部的人物图像输入分割网络得到相应的手部分层图像和背景图片;将所述手部变换参数带入到所述手部分层图像,得到相应的手部变换图像;将所述手部变换图像和所述背景图片输入生成网络得到最终的图像。针对生成和语音相匹配的手部动作经常会存在手部截断、错位等效果不佳的问题,本发明采用手部变换来刻画手部运动,并通过深度网络,有效、准确地生成带手部动作的图像。

    人脸图像生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN117372553B

    公开(公告)日:2024-05-10

    申请号:CN202311085684.5

    申请日:2023-08-25

    Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,方法包括:确定人脸图像生成模型,包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入图像编码子模型,得到人脸图像编码特征;将音频编码特征输入音频映射子模型,得到权重向量;采用权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,多个记忆口型编码特征对应于不同类型的口型;将音频编码特征、人脸图像编码特征以及融合口型特征,输入解码子模型,得到人脸生成图像。上述方案有助于提高人脸生成图像与驱动音频的口型匹配度。

    人脸图像生成方法及装置、计算机可读存储介质、终端

    公开(公告)号:CN117372553A

    公开(公告)日:2024-01-09

    申请号:CN202311085684.5

    申请日:2023-08-25

    Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,方法包括:确定人脸图像生成模型,包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入图像编码子模型,得到人脸图像编码特征;将音频编码特征输入音频映射子模型,得到权重向量;采用权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,多个记忆口型编码特征对应于不同类型的口型;将音频编码特征、人脸图像编码特征以及融合口型特征,输入解码子模型,得到人脸生成图像。上述方案有助于提高人脸生成图像与驱动音频的口型匹配度。

    抠图模型训练方法、图像抠图处理方法、装置及介质

    公开(公告)号:CN118379321B

    公开(公告)日:2025-05-23

    申请号:CN202410476312.3

    申请日:2024-04-19

    Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质,其中,抠图模型训练方法包括以下步骤:将样本图像分别输入人像抠图模型和物体抠图模型中,得到对应的第一图像和第二图像,所述第一图像为包含人像的抠图蒙版,所述第二图像为包含物体的抠图蒙版;对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签,所述标签为同时包含人像和物体的抠图蒙版;利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练,通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练,使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。

Patent Agency Ranking