图像处理方法和装置
    1.
    发明授权

    公开(公告)号:CN118096961B

    公开(公告)日:2024-07-12

    申请号:CN202410330050.X

    申请日:2024-03-22

    Abstract: 本公开提出了一种图像处理方法、图像处理装置和设备、计算机可读存储介质以及计算机程序产品。图像处理方法包括:接收源图像和驱动因子,驱动因子包括驱动文本、驱动图像、驱动音频和驱动视频中的至少一个;从源图像中提取第一面部参数集,并基于驱动因子生成第二面部参数集;基于第一面部参数集和第二面部参数集生成组合面部参数集;利用组合面部参数集进行图像渲染以生成渲染图像;以及基于渲染图像生成重演图像,该重演图像至少包括来自源图像的面部身份信息和来自驱动因子的面部运动信息。

    图像处理方法、装置、设备及其训练方法

    公开(公告)号:CN111598808B

    公开(公告)日:2022-08-23

    申请号:CN202010419181.7

    申请日:2020-05-18

    Abstract: 提供了一种图像处理方法、装置、设备及其训练方法,该训练方法包括:获取样本图像集,该样本图像集包括第一数量的样本图像;基于该样本图像集构建图像特征集,该图像特征集包括分别从该样本图像集中的每个样本图像提取的至少一个图像特征;获取训练图像集,该训练图像集包括第二数量的训练图像,该训练图像集与该样本图像集完全相同、部分相同或完全不同,该第一数量和该第二数量相同或不同;基于该训练图像集和该图像特征集构建多个训练图像对;以及基于该多个训练图像对对该图像处理模型进行训练。该训练方法利用无标记的真实图像作为训练输入,使得经训练的神经网络可以处理低分辨率图像中的模糊/噪声问题,生成更清晰/干净的高分辨率图像。

    一种人脸关键点运动图像生成方法以及相关设备

    公开(公告)号:CN118644596B

    公开(公告)日:2024-12-27

    申请号:CN202411117852.9

    申请日:2024-08-15

    Abstract: 本申请公开了一种人脸关键点运动图像生成方法以及相关设备,可以获取参考图像帧,并调用人脸关键点预测模型提取参考图像帧中人脸对应的人脸关键点信息;获取目标音频,并调用音频特征模型提取目标音频的目标音频特征;基于预设窗口尺寸,从目标音频特征中截取待处理音频特征,并获取待处理音频特征对应的至少一个前序图像帧;基于待添加噪声、迭代过程对应的时间步数值、人脸关键点信息、待处理音频特征、以及前序图像帧,调用扩散网络模型通过多次迭代过程预测参考图像帧在目标音频下的人脸关键点运动图像。本申请可生成自然且准确的人脸关键点运动图像。

    图像处理方法、装置、设备及其训练方法

    公开(公告)号:CN111598808A

    公开(公告)日:2020-08-28

    申请号:CN202010419181.7

    申请日:2020-05-18

    Abstract: 提供了一种图像处理方法、装置、设备及其训练方法,该训练方法包括:获取样本图像集,该样本图像集包括第一数量的样本图像;基于该样本图像集构建图像特征集,该图像特征集包括分别从该样本图像集中的每个样本图像提取的至少一个图像特征;获取训练图像集,该训练图像集包括第二数量的训练图像,该训练图像集与该样本图像集完全相同、部分相同或完全不同,该第一数量和该第二数量相同或不同;基于该训练图像集和该图像特征集构建多个训练图像对;以及基于该多个训练图像对对该图像处理模型进行训练。该训练方法利用无标记的真实图像作为训练输入,使得经训练的神经网络可以处理低分辨率图像中的模糊/噪声问题,生成更清晰/干净的高分辨率图像。

    从目标视频中分离目标对象的方法、训练方法及相关设备

    公开(公告)号:CN117292302A

    公开(公告)日:2023-12-26

    申请号:CN202311373763.6

    申请日:2023-10-23

    Abstract: 本申请提供了一种从目标视频中分离目标对象的方法、训练方法及相关设备。方法包括将目标视频输入对象分离模型,得到对应的目标像素掩码;基于目标像素掩码从目标视频中分离目标对象;对象分离模型基于第一预测损失训练,第一预测损失基于第一样本图片中各个第一像素的由对象分离模型预测出的第一预测掩码、以及各个第一像素的第一像素掩码标签确定,多个第一样本图片包括参考图片、和在对参考图片中的第一参考对象施加多个不同的图像变换产生的多个变换后图片,第一参考对象在多个第一样本图片之间的位置偏离度满足第一条件。本申请可应用于云技术、人工智能、智慧交通、辅助驾驶等场景,能够提高从视频中分离出对象的时序稳定性和分离质量。

    虚拟对象口型驱动方法、相关装置和介质

    公开(公告)号:CN116665695A

    公开(公告)日:2023-08-29

    申请号:CN202310936907.8

    申请日:2023-07-28

    Abstract: 本公开提供了一种虚拟对象口型驱动方法、相关装置和介质。该虚拟对象口型驱动方法包括:获取虚拟对象的面部标识;获取用于驱动虚拟对象的目标语音,目标语音中每个时区对应于虚拟对象的口型驱动视频中的一帧;从目标语音中提取语音特征,并将每个时区的语音特征与时区的位置信息进行编码得到第一编码串;对第一编码串与面部标识进行变换层处理,得到与时区对应的、虚拟对象的表情系数;基于时区对应的表情系数,在位置信息对应的帧中,对虚拟对象进行口型驱动。本公开实施例提高了口型驱动的准确性和时序稳定性。本公开实施例可应用于机器人与数字人等场景。

    一种内容修复方法、装置、设备和计算机程序产品

    公开(公告)号:CN114627019A

    公开(公告)日:2022-06-14

    申请号:CN202210265786.4

    申请日:2022-03-17

    Abstract: 本申请公开本一种内容修复方法、装置、设备和计算机程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等场景,可通过机器学习实现。方法从待修复内容中获取待修复图像,待修复图像包含噪声;将待修复图像作为修复模型的输入,对待修复图像进行画质修复获得修复后图像;根据待修复图像对应的修复后图像拼接得到待修复内容对应的修复后内容。修复模型为利用高清图像和含噪声图像训练获得的模型;高清图像画质符合预设画质要求。由于含噪声图像取自原始真实的含噪声内容,噪声类型真实、丰富,提升修复模型在修复方面的效用,修复模型泛化能力强,可修复包含多种不同噪声类型的待修复内容,提升对包含多种不同噪声内容的修复质量。

    虚拟对象口型驱动方法、相关装置和介质

    公开(公告)号:CN116665695B

    公开(公告)日:2023-10-20

    申请号:CN202310936907.8

    申请日:2023-07-28

    Abstract: 本公开提供了一种虚拟对象口型驱动方法、相关装置和介质。该虚拟对象口型驱动方法包括:获取虚拟对象的面部标识;获取用于驱动虚拟对象的目标语音,目标语音中每个时区对应于虚拟对象的口型驱动视频中的一帧;从目标语音中提取语音特征,并将每个时区的语音特征与时区的位置信息进行编码得到第一编码串;对第一编码串与面部标识进行变换层处理,得到与时区对应的、虚拟对象的表情系数;基于时区对应的表情系数,在位置信息对应的帧中,对虚拟对象进行口型驱动。本公开实施例提高了口型驱动的准确性和时序稳定性。本公开实施例可应用于机器人与数字人等场景。

Patent Agency Ranking