-
公开(公告)号:CN118520134A
公开(公告)日:2024-08-20
申请号:CN202410680204.8
申请日:2024-05-29
Applicant: 浙江大学
Inventor: 赵磊 , 栾俊升 , 张权威 , 林怀忠 , 张占杰 , 李光远 , 孙嘉锴 , 尹浩霖 , 蓝泽铧 , 莫俊程 , 马骋 , 王永康 , 陈嘉芙 , 褚天易 , 饶晨 , 焦涵 , 贾世安 , 张玮婧 , 邢卫
IPC: G06F16/58 , G06N3/0464 , G06N3/048 , G06N3/08 , G06T5/70
Abstract: 本申请涉及一种基于预训练文生图模型的生成含有预期标识图像的方法、计算机设备、可读存储介质和程序产品。方法包括:获得含有预期标识的参考图像,对参考图像依次执行定向编码和反向重建,在反向重建的过程中抽取获得第一自注意力图;获得随机噪声、以及含有预期标识文本的提示句,将随机噪声、提示句输入至预训练文生图模型;在对随机噪声去噪的过程中,将第一自注意力图注入更新相应位置的第二注意力图,引导预训练文生图模型生成含有预期标识的图像。本申请利用第一注意力图,注入更新相应位置的第二注意力图,对生成内容进行细粒度结构特征引导,生成含有预期标识文本提示句所对应的图像时,更好地保留了预期标识的结构和外观特征。
-
公开(公告)号:CN118014821A
公开(公告)日:2024-05-10
申请号:CN202311853046.3
申请日:2023-12-29
Applicant: 浙江大学
IPC: G06T3/04 , G06T5/60 , G06T5/70 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及一种基于大模型风格先验知识的风格迁移方法、计算机设备、可读存储介质和程序产品,风格迁移方法包括:构建编码器‑解码器结构,训练完成后用于将风格图片的艺术风格迁移至内容图片以生成风格化图片,编码器‑解码器结构的训练过程包括:将内容图片输入编码器获得内容特征,将风格图片输入编码器获得风格特征,将内容特征和风格特征输入风格化模块耦合后获得风格化特征,将风格化特征输入至解码器使解码器输出第一风格化图片;调整预训练扩散模型获得具备风格先验的艺术扩散模型,艺术扩散模型可根据第一风格化图片生成第二风格化图片,对比第一风格化图片和第二风格化图片的差异,训练编码器‑解码器结构直至达成预期。
-
公开(公告)号:CN118573978A
公开(公告)日:2024-08-30
申请号:CN202410680197.1
申请日:2024-05-29
Applicant: 浙江大学
Inventor: 赵磊 , 焦涵 , 贾世安 , 林怀忠 , 孙嘉锴 , 尹浩霖 , 蓝泽铧 , 莫俊程 , 马骋 , 张权威 , 王永康 , 陈嘉芙 , 褚天易 , 饶晨 , 张占杰 , 李光远 , 张玮婧 , 王欣宇 , 邢卫
IPC: H04N21/8549 , H04N21/81 , G06T15/00 , G06T17/00
Abstract: 本申请涉及一种基于3D高斯的高效流式传输的低比特率自由视点视频生成方法、计算机设备、可读存储介质和程序产品。生成方法包括:构建基于3D高斯的三维场景,3D高斯包括在初始帧构建的结构化3D高斯、以及在后续帧出现的自由3D高斯,3D高斯具有源于结构化3D高斯的第一类位置点、以及源于自由3D高斯的第二类位置点;将每个锚点关联至相应组别内所有的第一类位置点,使被关联的第一类位置点依附于相应的锚点;对于任意一组,获得锚点自身信息、以及关联信息,将二者映射至结构化3D高斯的协方差矩阵;逐帧优化3D高斯,包括间接优化第一类位置点及其属性、以及直接优化第二类位置点及其属性,渲染得到后续帧图像。
-
公开(公告)号:CN118520133A
公开(公告)日:2024-08-20
申请号:CN202410680203.3
申请日:2024-05-29
Applicant: 浙江大学
Inventor: 赵磊 , 栾俊升 , 张权威 , 林怀忠 , 张占杰 , 李光远 , 孙嘉锴 , 尹浩霖 , 蓝泽铧 , 莫俊程 , 马骋 , 王永康 , 陈嘉芙 , 褚天易 , 饶晨 , 焦涵 , 贾世安 , 张玮婧 , 邢卫
Abstract: 本申请涉及一种基于预训练文生图模型双向微调的生成含预期标识图像的方法、计算机设备和可读存储介质,方法包括:获得类泛化图像、以及与类泛化图像对应的类泛化提示句;对类泛化提示句附加第一权重的预期标识文本获得第一提示句,对类泛化提示句附加第二权重的预期标识文本获得第二提示句;获取与第一提示句相对应的第一生成图像;获取与第二提示句相对应的第二生成图像;利用预设损失参数微调预训练文生图模型,预设损失参数包括第一预设损失和第二预设损失,第一预设损失为含预期标识的参考图像及第一生成图像两者的差异损失,第二预设损失为类泛化图像及第二生成图像两者的差异损失;利用微调后的预训练文生图模型,重新获得第一生成图像。
-
公开(公告)号:CN118967915A
公开(公告)日:2024-11-15
申请号:CN202411041680.1
申请日:2024-07-31
Applicant: 浙江大学
Inventor: 尹浩霖 , 赵磊 , 林怀忠 , 邢卫 , 张权威 , 张占杰 , 李光远 , 孙嘉锴 , 蓝泽铧 , 莫俊程 , 马骋 , 王永康 , 陈嘉芙 , 褚天易 , 饶晨 , 焦涵 , 贾世安 , 张玮婧
IPC: G06T15/20 , G06V10/774 , G06V10/82 , G06N3/09
Abstract: 本申请涉及一种基于2D先验的3D高斯场景风格迁移方法、计算机设备和计算机程序产品,包括:利用3D场景多视角的原始图像集,构建3D高斯;对3D高斯进行图像渲染,获得与原始图像集的视角相对应的渲染图像集;利用预期的风格图像,对渲染图像集内的渲染图像执行风格迁移,获得与渲染图像内容结构相同的风格化图像;利用风格化图像对应替换原始图像集中相应视角的图像,替换完成后组成监督图像集;比较监督图像集和渲染图像集内相同视角下图像的差异损失优化3D高斯。本申请可利用二维风格迁移方法的先验知识获得风格化图像,继而通过差异损失优化3D高斯,将风格化图像的风格信息转移到3D高斯场景中,实现3D高斯的场景风格迁移。
-
公开(公告)号:CN118505498A
公开(公告)日:2024-08-16
申请号:CN202410680199.0
申请日:2024-05-29
Applicant: 浙江大学
Inventor: 赵磊 , 张权威 , 林怀忠 , 张占杰 , 李光远 , 孙嘉锴 , 尹浩霖 , 蓝泽铧 , 莫俊程 , 马骋 , 王永康 , 陈嘉芙 , 褚天易 , 饶晨 , 焦涵 , 贾世安 , 张玮婧 , 邢卫
IPC: G06T3/04 , G06T5/70 , G06T5/60 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及一种基于预训练扩散模型的二维图像风格迁移方法、计算机设备、可读存储介质和程序产品,方法包括:基于内容图像获得内容潜变量,基于风格图像获得风格潜变量,基于内容潜变量获得初始潜变量;将内容潜变量、风格潜变量和初始潜变量,三者同时输入预训练扩散模型,基于内容查询特征、风格键特征和风格值特征获得加权后的风格值特征,加权后的风格值特征用于在每轮解码过程中预测噪声;在预训练扩散模型的解码过程中,基于内容潜变量获得经过自注意力层内残差块输出的第一结果特征,基于初始潜变量获得经过自注意力层内残差块输出的第二结果特征;利用对比损失,约束和引导解码过程,使初始潜变量完成多轮地去除噪声后生成风格化图像。
-
公开(公告)号:CN118505497A
公开(公告)日:2024-08-16
申请号:CN202410680196.7
申请日:2024-05-29
Applicant: 浙江大学
Inventor: 赵磊 , 林怀忠 , 张占杰 , 李光远 , 孙嘉锴 , 尹浩霖 , 蓝泽铧 , 莫俊程 , 马骋 , 张权威 , 王永康 , 陈嘉芙 , 褚天易 , 饶晨 , 焦涵 , 贾世安 , 张玮婧 , 邢卫
IPC: G06T3/04 , G06T5/70 , G06T5/60 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及一种基于扩散模型的艺术风格迁移的方法、计算机设备、可读存储介质和程序产品,基于扩散模型的艺术风格迁移方法,包括:建立艺术风格迁移框架,所述艺术风格迁移框架基于扩散模型构建,所述艺术风格迁移框架用于将输入图片依次输入加噪模块、去噪模块以生成输出图片,所述去噪模块的去噪过程至少利用用于引导风格信息的提示矩阵执行;以多张相同风格信息的风格图片作为输入图片,输入至所述艺术风格迁移框架,比较输出图片和所述风格图片的风格差异,优化所述提示矩阵,直至满足预期,得到训练完成的艺术风格迁移框架;以内容图片作为输入图片,输入至训练完成的艺术风格迁移框架,输出保持原有内容且具备所述风格信息的风格化图片。
-
公开(公告)号:CN118015113A
公开(公告)日:2024-05-10
申请号:CN202311862018.8
申请日:2023-12-29
Applicant: 浙江大学
Abstract: 本申请涉及一种个性化文本到图像生成方法、计算机设备、可读存储介质和程序产品,个性化文本到图像生成方法用于根据含标识的第一文本提示生成图像,包括:根据第一文本提示获得第二文本提示和第三文本提示,第二文本提示表示生成标识的图像,第三文本提示表示标识的母类标识及所处环境;根据第一文本提示、第二文本提示和第三文本提示分别生成第一注意力图、第二注意力图和第三注意力图;同时分解第一注意力图和第二注意力图,对比迭代更新后获得对应标识的第一优化图;同时分解第一注意力图和第三注意力图,对比迭代更新后获得对应所处环境的第二优化图,将第一优化图和第二优化图重组后获得注意力结果图。
-
公开(公告)号:CN118158489A
公开(公告)日:2024-06-07
申请号:CN202410261768.8
申请日:2024-03-07
Applicant: 浙江大学
IPC: H04N21/81 , H04N21/44 , H04N21/466 , H04N5/272
Abstract: 本申请涉及一种基于3D高斯模型实现的高效流式传输自由视点视频生成方法、计算机设备和程序产品,高效流式传输自由视点视频生成方法,包括:获得三维场景前一帧的3D高斯模型,3D高斯模型为3D高斯的集合,对于一个3D高斯,其包括空间上的一个位置点、以及该位置点属性;构建包括感知机的神经网络,位置点以位置哈希编码的方式记录,感知机接收位置哈希编码,并将位置哈希编码映射为3D高斯的属性变化,属性变化包括用来表示3D高斯位移的第一部分、以及用来表示3D高斯旋转的第二部分;在后一帧利用3D高斯位移、以及3D高斯旋转,更新3D高斯,渲染得到参考图像;利用参考图像和样本图像的损失,优化神经网络,利用优化后的神经网络生成后帧图像。
-
公开(公告)号:CN118014822A
公开(公告)日:2024-05-10
申请号:CN202311868166.0
申请日:2023-12-29
Applicant: 浙江大学
IPC: G06T3/04 , G06N3/0455 , G06N3/0464 , G06N3/0895
Abstract: 本申请涉及一种基于对比学习和注意力机制的风格迁移方法、计算机设备、可读存储介质和程序产品,风格迁移方法包括:构建包括编码器、解码器的编码器‑解码器结构,编码器‑解码器结构在训练完成后用于将风格图像的艺术风格迁移至内容图像以生成风格化图像,训练过程包括:将内容图像输入第一编码器获得内容特征,将风格图像输入第一编码器获得局部风格特征,将风格图像输入第二编码器获得全局风格特征;将局部风格特征和全局风格特征耦合后获得局部‑全局风格特征;将局部‑全局风格特征和内容特征耦合后获得风格化特征;将风格化特征输入解码器获得风格化图像,根据风格化图像和风格图像的风格差异损失,训练编码器‑解码器结构直至达成预期。
-
-
-
-
-
-
-
-
-