-
公开(公告)号:CN118015110A
公开(公告)日:2024-05-10
申请号:CN202311762681.0
申请日:2023-12-19
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定人脸图像生成模型,人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型;将驱动音频分别输入音频内容特征提取子模型和音频情感特征提取子模型进行特征提取,得到音频内容特征和音频情感特征;至少基于音频内容特征和音频情感特征进行拼接,得到音频融合特征;将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理,得到目标完整人脸特征;对目标完整人脸特征进行解码,得到完整人脸生成图像。上述方案有助于生成既能准确匹配驱动音频中的口型,又能精准表达驱动音频包含的情绪的人脸生成图像。
-
公开(公告)号:CN117036546A
公开(公告)日:2023-11-10
申请号:CN202310956306.3
申请日:2023-07-31
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本申请提供了一种图片生成方法及装置、存储介质、计算设备,该图片生成方法包括:获取输入内容,输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将输入内容输入至扩散模型,以生成目标图片,其中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装,目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。
-
公开(公告)号:CN117036546B
公开(公告)日:2024-05-03
申请号:CN202310956306.3
申请日:2023-07-31
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 本申请提供了一种图片生成方法及装置、存储介质、计算设备,该图片生成方法包括:获取输入内容,输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将输入内容输入至扩散模型,以生成目标图片,其中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装,目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。
-
公开(公告)号:CN118015110B
公开(公告)日:2025-01-14
申请号:CN202311762681.0
申请日:2023-12-19
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端,所述方法包括:确定人脸图像生成模型,人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型;将驱动音频分别输入音频内容特征提取子模型和音频情感特征提取子模型进行特征提取,得到音频内容特征和音频情感特征;至少基于音频内容特征和音频情感特征进行拼接,得到音频融合特征;将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理,得到目标完整人脸特征;对目标完整人脸特征进行解码,得到完整人脸生成图像。上述方案有助于生成既能准确匹配驱动音频中的口型,又能精准表达驱动音频包含的情绪的人脸生成图像。
-
-
-