Patent search ap:("华院计算技术(上海)股份有限公司") AND inv:"王霄鹏" Page 1

1.

发明公开
人脸图像生成方法及装置、计算机可读存储介质、终端有权

公开(公告)号：CN118015110A

公开(公告)日：2024-05-10

申请号：CN202311762681.0

申请日：2023-12-19

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王霄鹏 , 虞钉钉 , 胡贤良

IPC: G06T11/00 , G10L15/02 , G10L25/63 , G10L25/30

Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端，所述方法包括：确定人脸图像生成模型，人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型；将驱动音频分别输入音频内容特征提取子模型和音频情感特征提取子模型进行特征提取，得到音频内容特征和音频情感特征；至少基于音频内容特征和音频情感特征进行拼接，得到音频融合特征；将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理，得到目标完整人脸特征；对目标完整人脸特征进行解码，得到完整人脸生成图像。上述方案有助于生成既能准确匹配驱动音频中的口型，又能精准表达驱动音频包含的情绪的人脸生成图像。

2.

发明公开
图片生成方法及装置、存储介质、计算设备审中-实审

公开(公告)号：CN117036546A

公开(公告)日：2023-11-10

申请号：CN202310956306.3

申请日：2023-07-31

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王霄鹏 , 虞钉钉 , 胡贤良

IPC: G06T11/60 , G06N20/00

Abstract: 本申请提供了一种图片生成方法及装置、存储介质、计算设备，该图片生成方法包括：获取输入内容，输入内容包括人脸标识、服装标识、姿态信息以及背景图片；将输入内容输入至扩散模型，以生成目标图片，其中，扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸，扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装，目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。

3.

发明授权
图片生成方法及装置、存储介质、计算设备有权

公开(公告)号：CN117036546B

公开(公告)日：2024-05-03

申请号：CN202310956306.3

申请日：2023-07-31

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王霄鹏 , 虞钉钉 , 胡贤良

IPC: G06T11/60 , G06N20/00

Abstract: 本申请提供了一种图片生成方法及装置、存储介质、计算设备，该图片生成方法包括：获取输入内容，输入内容包括人脸标识、服装标识、姿态信息以及背景图片；将输入内容输入至扩散模型，以生成目标图片，其中，扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸，扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装，目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。

4.

发明授权
人脸图像生成方法及装置、计算机可读存储介质、终端有权

公开(公告)号：CN118015110B

公开(公告)日：2025-01-14

申请号：CN202311762681.0

申请日：2023-12-19

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王霄鹏 , 虞钉钉 , 胡贤良

IPC: G06T11/00 , G10L15/02 , G10L25/63 , G10L25/30

Abstract: 一种人脸图像生成方法及装置、计算机可读存储介质、终端，所述方法包括：确定人脸图像生成模型，人脸图像生成模型包括音频内容特征提取子模型、音频情感特征提取子模型、扩散子模型；将驱动音频分别输入音频内容特征提取子模型和音频情感特征提取子模型进行特征提取，得到音频内容特征和音频情感特征；至少基于音频内容特征和音频情感特征进行拼接，得到音频融合特征；将所述音频融合特征和带噪声的参考人脸图像特征输入所述扩散子模型进行去噪处理，得到目标完整人脸特征；对目标完整人脸特征进行解码，得到完整人脸生成图像。上述方案有助于生成既能准确匹配驱动音频中的口型，又能精准表达驱动音频包含的情绪的人脸生成图像。

Patent Agency Ranking