一种基于扩散模型的通用风格人物图像定制生成方法

    公开(公告)号:CN119295574A

    公开(公告)日:2025-01-10

    申请号:CN202411156542.8

    申请日:2024-08-22

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于扩散模型的通用风格人物图像定制生成方法;该方法的生成过程分为两个连续的阶段:语义场景构建和概念特征注入;第一阶段,参考感知自注意力RSA使潜在图像能够同时从所有概念的图像中提取特征,从而获取粗粒度的整体语义理解,以便建立初始的语义布局;第二阶段,首先基于注意力的语义分割方法,准确定位潜在图像中所有概念的生成位置,随后,区域分组混合注意力RBA将潜在图像划分为多个语义组,并使每个组从其对应的参考概念中查询细粒度的特征,以确保精确的属性对齐和特征注入。本发明还采用了权重掩码策略,以确保模型更关注参考的概念特征。本发明方法在以人为中心的图像生成和多概念人像定制方面具有显著优势。

    一种基于扩散模型的对象驱动人物图像生成方法

    公开(公告)号:CN118365733A

    公开(公告)日:2024-07-19

    申请号:CN202410542524.7

    申请日:2024-04-30

    Applicant: 复旦大学

    Abstract: 本发明公开了一种基于扩散模型的对象驱动人物图像生成方法;该方法将生成图像的过程分为三个连续的阶段,即语义场景构建、主体‑场景融合和主体增强。第一和第三阶段分别由文本扩散模型TDM和主体扩散模型SDM单独执行,而第二阶段通过显著性自适应噪声融合SNF机制完成,在每个生成的时间步骤中,SNF通过每个预训练模型的无分类器引导的响应来利用他们各自的优势,以显著性感知的方式自适应地对来自两个模型预测的噪声在空间上进行融合,从而实现两个模型的协作生成。本发明通过预训练模型之间协作生成的方式,消除了训练不平衡和质量妥协问题,大量实验证实了本发明在生成高保真人物图像上超越了现有的公开技术方法。

Patent Agency Ranking