基于交互控制的文本到图像生成方法、系统、设备及介质

    公开(公告)号:CN119919526A

    公开(公告)日:2025-05-02

    申请号:CN202510413253.X

    申请日:2025-04-03

    Applicant: 中南大学

    Abstract: 本申请公开了一种基于交互控制的文本到图像生成方法、系统、设备及介质,该方法通过构建包含第一编码器和第一解码器的文本到图像扩散模型,以及,构建包含第二编码器和第二解码器的图像到文本模型;将文本到图像扩散模型与图像到文本模型连接,构建图像生成模型;采用训练噪声图像、第一交互信息和第一文本信息训练构建好的图像生成模型,得到训练好的图像生成模型;将待生成噪声图像、第二交互信息和第二文本信息输入至训练好的图像生成模型中的文本到图像扩散模型,得到多张生成图像;将多张生成图像输入至训练好的图像生成模型中的图像到文本模型,筛选出目标生成图像。本申请能够提高图像生成的质量。

Patent Agency Ranking