-
公开(公告)号:CN118967886A
公开(公告)日:2024-11-15
申请号:CN202411082954.1
申请日:2024-08-08
申请人: 北京智象未来科技有限公司
IPC分类号: G06T11/60 , G06N3/0455 , G06N3/0475 , G06T5/70 , G06T5/60 , G06T3/4038
摘要: 本申请提供一种虚拟换衣方法、装置、设备、存储介质,该方便包括:获取人物图像和服装图像;基于扩散模型生成目标图像;目标图像中人物图像穿着服装图像;其中,扩散模型包括前向过程和逆向过程;前向过程生成目标图像的加噪图像;逆向过程中,Transformer块无交叉注意力层,且每个Transformer块以服装头像进行变分编码器嵌入和CLIP视觉嵌入。本申请提供的方法在扩散模型的逆向过程中,Transformer块无交叉注意力层,且每个Transformer块以服装头像进行变分编码器嵌入和CLIP视觉嵌入,实现了去噪过程以服装为中心的视觉适配,提升目标图像中衣服的细节和人物姿势的一致性。
-
公开(公告)号:CN117830483B
公开(公告)日:2024-10-18
申请号:CN202311823905.4
申请日:2023-12-27
申请人: 北京智象未来科技有限公司
摘要: 本申请提供一种基于图像的视频生成方法、装置、设备、存储介质,该方法包括:获取文本和静态图像;将文本和静态图像输入至预先训练的去噪模型,以使去噪模型根据静态图像确定的噪声先验,并基于噪声先验和文本预测噪声;基于去噪模型预测的噪声,对高斯噪声进行去噪处理,生成视频。本申请提供的方法,根据静态图像确定的噪声先验,并基于噪声先验和文本预测噪声;基于去噪模型预测的噪声,对高斯噪声进行去噪处理,生成视频,使得静态图像的噪声先验对后续视频帧的引导,保证了和第一帧的视觉内容对齐,使得视频具备较佳的时域连续性,增强了泛化性。
-
公开(公告)号:CN117830099B
公开(公告)日:2024-10-18
申请号:CN202311818992.4
申请日:2023-12-27
申请人: 北京智象未来科技有限公司
IPC分类号: G06T3/4053 , G06T3/4046 , G06T5/60 , G06T5/70 , G06N3/0464 , G06N3/0455 , G06N3/047
摘要: 本申请提供一种视频超分辨方法、装置、设备、存储介质,该方法包括:获取视频和高斯噪声;将视频和高斯噪声输入视频超分辨模型,获取视频超分辨模型输出的高频分辨率视频;视频超分辨模型包括:训练的图像生成模型、上采样器、空间适应模块、时域对齐模块和调节器;时域对齐模块,用于保证高频分辨率视频的帧间细节具备连贯性。本申请提供的方法,通过预先训练的视频超分辨模型生成具备帧间细节具备连贯性的高频分辨率视频,该高频分辨率视频具有丰富且保真的细节和流畅的连贯度。
-
公开(公告)号:CN117835012A
公开(公告)日:2024-04-05
申请号:CN202311819011.8
申请日:2023-12-27
申请人: 北京智象未来科技有限公司
IPC分类号: H04N21/85 , H04N21/435 , H04N21/44
摘要: 本申请提供一种可控视频生成方法、装置、设备、存储介质,该方法包括:获取输入的视频和文本;根据文本,从视频中提取引导信息;根据引导信息生成I帧和B帧;基于I帧和B帧生成可控视频。本申请提供的方法,提取引导信息,根据引导信息生成的可控视频,不仅能保持可控视频内帧之间的连续性,还能保持视频生成跨镜头的时序一致性。
-
公开(公告)号:CN118967524A
公开(公告)日:2024-11-15
申请号:CN202411082632.7
申请日:2024-08-08
申请人: 北京智象未来科技有限公司
摘要: 本申请提供一种图像目标修复方法、装置、设备、存储介质,该方法包括:获取包括修复区域的图像、文本提示和二进制遮掩码;文本提示用于描述修复区域中的目标对象;二进制遮掩码用于指示待修复区域;根据二进制遮掩码确定图像的遮罩图像;根据文本提示和遮罩图像,推断目标对象的修复后特征;将修复后特征作为视觉提示,引导扩散模型生成目标对象。本申请提供的方法,基于修复区域的图像、文本提示和二进制遮掩码,推断目标对象的修复后特征,进而将修复后特征作为视觉提示,引导扩散模型生成目标对象,使得生成的目标对象与文本提示一致,且不存在明显的伪影,高保真。
-
公开(公告)号:CN118967501A
公开(公告)日:2024-11-15
申请号:CN202411081740.2
申请日:2024-08-08
申请人: 北京智象未来科技有限公司
摘要: 本申请提供一种图像增强方法、装置、设备、存储介质,该方法包括:获取初始图像;采用扩散模型向初始图像添加高强度的噪声,得到创造流加噪图像;采用扩散模型向初始图像添加低强度的噪声,得到稳定流加噪图像;混合创造流加噪图像和稳定流加噪图像,得到混合图像;通过扩散模型对混合图像进行去噪处理,得到增强的图像。本申请提供的方法,通过向初始图像添加高强度的噪声和低强度的噪声,基于添加后的噪声进行去噪处理,得到增强的图像,提升了增强的图像的细节丰富度,实现了扩散模型的细节增强。
-
公开(公告)号:CN117315148B
公开(公告)日:2024-05-24
申请号:CN202311248760.X
申请日:2023-09-26
申请人: 北京智象未来科技有限公司
IPC分类号: G06T17/00 , G06T15/50 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/084
摘要: 本申请提供一种三维物体风格化方法、装置、设备、存储介质,该方法获取文本;根据文本,确定三维物体涉及的顶点;确定经过图像中各点的光线;基于光线和顶点,确定各点的深度值;根据光线确定各点的光强度;根据光强度和各点的深度值,生成风格化的三维物体。本申请提供的方法,通过各点的深度值引导三维物体的风格化渲染,进而实现了更加精准的文本控制。
-
公开(公告)号:CN117830483A
公开(公告)日:2024-04-05
申请号:CN202311823905.4
申请日:2023-12-27
申请人: 北京智象未来科技有限公司
摘要: 本申请提供一种基于图像的视频生成方法、装置、设备、存储介质,该方法包括:获取文本和静态图像;将文本和静态图像输入至预先训练的去噪模型,以使去噪模型根据静态图像确定的噪声先验,并基于噪声先验和文本预测噪声;基于去噪模型预测的噪声,对高斯噪声进行去噪处理,生成视频。本申请提供的方法,根据静态图像确定的噪声先验,并基于噪声先验和文本预测噪声;基于去噪模型预测的噪声,对高斯噪声进行去噪处理,生成视频,使得静态图像的噪声先验对后续视频帧的引导,保证了和第一帧的视觉内容对齐,使得视频具备较佳的时域连续性,增强了泛化性。
-
公开(公告)号:CN117315149B
公开(公告)日:2024-09-17
申请号:CN202311248957.3
申请日:2023-09-26
申请人: 北京智象未来科技有限公司
IPC分类号: G06T17/00 , G06V10/74 , G06N3/0455 , G06N3/0464 , G06N3/08
摘要: 本申请提供一种三维物体生成方法、装置、设备、存储介质,该方法获取文本和第一图像;确定生成三维物体的初始模型;根据文本和第一图像,确定损失函数;根据损失函数,训练初始模型,得到最终模型;根据最终模型生成三维物体。本申请提供的方法根据文本和图像生成三维物体,使三维物体不仅符合文本的描述,同时还与图像描绘的形状一致,生成的三维物体精准可控。
-
公开(公告)号:CN117830079B
公开(公告)日:2024-07-26
申请号:CN202311823955.2
申请日:2023-12-27
申请人: 北京智象未来科技有限公司
摘要: 本申请提供一种真实图片预测方法、装置、设备、存储介质,该方法包括:获取带有噪声的初始图片;根据初始图片,预测不带噪声图片;将不带噪声图片分解为低低、低高、高低、高高四个频段的图片;对每个频段的图片进行滑动平均;组合滑动平均后的各频段的图片,形成预测的真实图片。本申请提供的方法在预测不带噪声图片之后,会将不带噪声图片分解为低低、低高、高低、高高四个频段的图片,对每个频段的图片进行滑动平均,从而消除部分随机误差,使得组合滑动平均后的各频段的图片,形成预测的真实图片更加精确。
-
-
-
-
-
-
-
-
-