-
公开(公告)号:CN116630482B
公开(公告)日:2023-11-03
申请号:CN202310919649.2
申请日:2023-07-26
Applicant: 拓尔思信息技术股份有限公司
IPC: G06T11/60 , G06N3/0464 , G06T5/00 , G06T7/13 , G06V10/25 , G06V10/74 , G06V10/764 , G06V10/80 , G06V10/82 , G06F16/532 , G06F16/583
Abstract: 本发明提出了一种基于多模态检索与轮廓引导的图像生成方法,步骤如下所述:S1:图文多模态检索生成原始图像:输入正向提示文本Prompt,对其进行分词和向量化处理,输出符合相似度阈值的图库中图像作为原始图像;S2:文字检测;S3:图像修复,去除图像中生成效果不好的元素;S4:边缘检测;S5:生成引导文本,S6:图像条件生成:设置支持外部输入条件的隐式扩散模型;输入S4生成的轮廓图作为外部条件,利用S5生成的引导文本在扩散模型中有条件的生成最终图像并输出,本发明有较好的通用性,通过检测已有图像的布局结构来引导图像生成,有效提升了图像生成效果。
-
公开(公告)号:CN116630482A
公开(公告)日:2023-08-22
申请号:CN202310919649.2
申请日:2023-07-26
Applicant: 拓尔思信息技术股份有限公司
IPC: G06T11/60 , G06N3/0464 , G06T5/00 , G06T7/13 , G06V10/25 , G06V10/74 , G06V10/764 , G06V10/80 , G06V10/82 , G06F16/532 , G06F16/583
Abstract: 本发明提出了一种基于多模态检索与轮廓引导的图像生成方法,步骤如下所述:S1:图文多模态检索生成原始图像:输入正向提示文本Prompt,对其进行分词和向量化处理,输出符合相似度阈值的图库中图像作为原始图像;S2:文字检测;S3:图像修复,去除图像中生成效果不好的元素;S4:边缘检测;S5:生成引导文本,S6:图像条件生成:设置支持外部输入条件的隐式扩散模型;输入S4生成的轮廓图作为外部条件,利用S5生成的引导文本在扩散模型中有条件的生成最终图像并输出,本发明有较好的通用性,通过检测已有图像的布局结构来引导图像生成,有效提升了图像生成效果。
-