-
公开(公告)号:CN118052895A
公开(公告)日:2024-05-17
申请号:CN202410169382.4
申请日:2024-02-06
Applicant: 南京邮电大学
IPC: G06T11/00 , G06V10/80 , G06V10/77 , G06V10/82 , G06V20/68 , G06V20/70 , G06N3/0475 , G06N3/045 , G06N3/094
Abstract: 本发明公开了图像生成技术领域的一种基于预训练图文匹配模型的食谱到食物可控生成方法和装置,方法包括:获取经过筛选的菜谱数据集;通过预训练图文匹配模型CLIP对所述菜谱数据集进行编码,通过融合模块将所述菜谱数据集编码后的菜名特征、食材特征及烹饪步骤特征的文本信息融合,获得融合特征;将所述菜谱数据集中的食材特征通过线性映射方法初始化为提示标签;将从所述经过筛选的菜谱数据集中随机采样的高斯噪声、提示标签、融合特征输入生成对抗网络模型,生成和所述融合特征内容相符的食物图像;将所述食物图像输入所述生成对抗网络模型中的图像判别器以区分真实图像和合成图像,基于所述真实图像和合成图像保证食物图像真实性和语义一致性。本发明能够解决由于烹饪指令之间顺序关系的影响以至于最终食谱和生成的食物图像之间语义不一致的技术问题。
-
公开(公告)号:CN119169135A
公开(公告)日:2024-12-20
申请号:CN202411307828.1
申请日:2024-09-19
Applicant: 南京邮电大学
IPC: G06T11/00 , G06V20/70 , G06T7/00 , G06T5/70 , G06T5/60 , G06N5/04 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/08 , G06N3/084
Abstract: 本发明公开了一种基于协同关系感知的扩散模型食物生成方法及系统,涉及文本生成图像技术领域,包括:接收食物图像数据,将食物图像数据输入至预先建立的标注模型BLIP内进行文本标注,得到标注后的食物图像数据;将标注后的食物图像数据输入至预先建立的问答模型GPT4内对菜谱和图像进行关系提取,提取出每个食材和对应的烹饪动作,作为二元组;将二元组输入至预训练大模型CLIP的文本编码器内进行编码,将编码后的关系通过关系注入器输入至预先建立的主干扩散模型的交叉注意力层内,输出得到生成的食物图像;将生成的食物图像输入至预先建立的图像打分反馈模型内,得出图像打分分数,根据图像打分分数对生成的食物图像进行优化。
-