基于时序一致隐空间引导扩散模型的人体视频生成方法

    公开(公告)号:CN117994708B

    公开(公告)日:2024-05-31

    申请号:CN202410397545.4

    申请日:2024-04-03

    Abstract: 本发明公开了基于时序一致隐空间引导扩散模型的人体视频生成方法,包括以下步骤:从人物动作视频中提取骨骼序列并形成骨骼序列的视频;对输入视频、人物形象以及骨骼序列提取特征;输入特征至扩散模型中进行前向加噪及噪声预测;以加入的噪声作为监督定义约束并对扩散模型进行训练;将目标姿态序列和人物图片输入至训练好的扩散模型中;将时空坐标通过隐式网络映射为像素值;以目标视频以及目标姿态序列作为监督约束,学习模型参数;对隐式网络的输出视频进行特征提取,再次输入训练完成的扩散模型,得到人物动作视频。本发明设计迭代优化的策略,通过时序一致的隐空间引导提升扩散模型的生成结果连续性,以提高姿态引导的人体视频生成质量。

    一种基于高斯点渲染的单目人脸化身生成方法

    公开(公告)号:CN117974867A

    公开(公告)日:2024-05-03

    申请号:CN202410381197.1

    申请日:2024-04-01

    Abstract: 一种基于高斯点渲染的单目人脸化身生成方法,包括以下步骤:从单目人像视频中提取FLAME的表情参数和姿态参数;定义初始化空间、标准空间、形变空间;从点在形变空间与初始化空间的位置信息,获取点在形变空间中的高斯参数;将点在形变空间中的高斯参数输入渲染器,并渲染图像;将渲染图像与输入单目人像视频做图像损失,通过最小化该约束进行训练;每次训练迭代中加入增删点策略以实现点数增加;通过驱动视频对训练好的特定人物化身进行驱动。本发明设计迭代优化的策略,以及高斯点云的增删点策略,利用高斯抛雪球渲染器的渲染速度和渲染质量,通过预训练的线性混合蒙皮函数引导高斯参数网络和点的形变网络的训练,提高人像化身的生成质量。

    一种基于动态表面反射场的人体重光照方法

    公开(公告)号:CN117953137A

    公开(公告)日:2024-04-30

    申请号:CN202410353427.3

    申请日:2024-03-27

    Abstract: 本发明公开了一种基于动态表面反射场的人体重光照方法,包括以下步骤:将4D空间利用多平面及哈希表示进行分解,对多视角动态人体视频编码得到紧凑的时空位置编码;得到光线采样点的符号距离函数值、几何特征及颜色值;得到对应像素的深度、法向、颜色及材质;建模直接光照、光线可见性及间接光照;同时约束渲染图像,学习模型参数,得到动态人体重光照视频。本发明通过设计高效的4D隐式表示对人体表面反射场进行建模,克服了基于模板的方法中固有的拟合误差大和较低的运动自由度的问题,实现准确的动态人体表面反射场的估计。光照建模中通过光线追踪引入可见性及间接光,精准地模拟了二次弹射的着色效果,实现更准确的材质解算和重光照效果。

    一种低光照条件下的人脸图像超分辨率重建方法

    公开(公告)号:CN117830096A

    公开(公告)日:2024-04-05

    申请号:CN202311690044.7

    申请日:2023-12-11

    Abstract: 本发明公开了一种低光照条件下的人脸图像超分辨率重建方法。步骤1:合成低光照低分辨率人脸图像ILLR;步骤2:构建亮度校正人脸超分辨率网络IC‑FSRNet;步骤3:将步骤1合成的图像输入到步骤2中,改善人脸图像的亮度并恢复人脸结构信息,得到ISR1;步骤4:构建细节增强模型DENet;步骤5:将步骤3得到的图像输入到步骤4中,改善人脸图像的面部细节,从而使人脸图像具有更好的视觉效果,得到ISR2。本发明可以有效改善低光照低分辨率人脸图像视觉质量,解决现有级联技术中重要面部信息丢失的问题。

    基于文本信息指导的人脸超分辨率方法、系统、设备及可读存储介质

    公开(公告)号:CN120031718A

    公开(公告)日:2025-05-23

    申请号:CN202510111785.8

    申请日:2025-01-24

    Abstract: 本发明涉及一种基于文本信息指导的人脸超分辨率方法,包括以下步骤:步骤一、文本描述生成:通过多模态大语言模型生成文本描述;步骤二、潜在空间编码:将低分辨率人脸图像和文本描述映射到潜在特征空间,利用预训练的编码器对图像进行紧凑表示;步骤三、文本信息融合:通过基于交叉注意力机制的方法,将生成的文本描述嵌入到视觉特征处理过程中,形成文本‑视觉联合表示;步骤四、残差扩散生成模块:在潜在空间中,通过残差连接的马尔可夫链实现低分辨率到高分辨率图像的生成;步骤五、文本感知损失优化:通过最小化潜在空间恢复误差和文本一致性误差,优化生成结果的图像质量和语义一致性。相较于其他生成模型,TFSR具有最少的参数量、最高的采样效率和最佳的FID分数。

    一种基于动态表面反射场的人体重光照方法

    公开(公告)号:CN117953137B

    公开(公告)日:2024-06-14

    申请号:CN202410353427.3

    申请日:2024-03-27

    Abstract: 本发明公开了一种基于动态表面反射场的人体重光照方法,包括以下步骤:将4D空间利用多平面及哈希表示进行分解,对多视角动态人体视频编码得到紧凑的时空位置编码;得到光线采样点的符号距离函数值、几何特征及颜色值;得到对应像素的深度、法向、颜色及材质;建模直接光照、光线可见性及间接光照;同时约束渲染图像,学习模型参数,得到动态人体重光照视频。本发明通过设计高效的4D隐式表示对人体表面反射场进行建模,克服了基于模板的方法中固有的拟合误差大和较低的运动自由度的问题,实现准确的动态人体表面反射场的估计。光照建模中通过光线追踪引入可见性及间接光,精准地模拟了二次弹射的着色效果,实现更准确的材质解算和重光照效果。

Patent Agency Ranking