一种基于文本条件扩散模型的语义图像编辑方法

    公开(公告)号:CN117541684B

    公开(公告)日:2024-03-26

    申请号:CN202410024642.9

    申请日:2024-01-08

    Abstract: 本发明属于计算机视觉的领域,公开了一种基于文本条件扩散模型的语义图像编辑方法,该方法首先利用不同文本在文本条件扩散模型下对同一初始图像加噪会产生不同的噪声估计,通过差异计算得出遮罩,用去噪扩散隐式模型DDIM编码函数对输入图像进行加噪,通过将遮罩外的像素值替换为初始图像DDIM加噪得到图像像素值来指导扩散模型,然后解码自然地映射回原始像素。该方法通过U‑net预训练模型只进行一次噪声预测即提高遮罩的生成速度,根据噪声预测差值生成遮罩对图像进行局部编辑,降低在不需要编辑的区域中修改输入的风险,提高合成图像的质量。

    一种基于文本条件扩散模型的语义图像编辑方法

    公开(公告)号:CN117541684A

    公开(公告)日:2024-02-09

    申请号:CN202410024642.9

    申请日:2024-01-08

    Abstract: 本发明属于计算机视觉的领域,公开了一种基于文本条件扩散模型的语义图像编辑方法,该方法首先利用不同文本在文本条件扩散模型下对同一初始图像加噪会产生不同的噪声估计,通过差异计算得出遮罩,用去噪扩散隐式模型DDIM编码函数对输入图像进行加噪,通过将遮罩外的像素值替换为初始图像DDIM加噪得到图像像素值来指导扩散模型,然后解码自然地映射回原始像素。该方法通过U‑net预训练模型只进行一次噪声预测即提高遮罩的生成速度,根据噪声预测差值生成遮罩对图像进行局部编辑,降低在不需要编辑的区域中修改输入的风险,提高合成图像的质量。

Patent Agency Ranking