基于文本驱动的零样本6自由度视频编辑方法及系统

    公开(公告)号:CN119316668B

    公开(公告)日:2025-03-21

    申请号:CN202411854450.7

    申请日:2024-12-17

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的零样本6自由度视频编辑方法及系统,属于计算机视觉处理领域。本发明的方法包括:基于扩散模型逐帧处理多视角源视频,由编码器编码各帧原始图像;在UNet网络的反演过程中注入文本表征,存储每个加噪时间步的交叉注意力图和自注意力图;更新无文本控制向量,由设计好的UNet编辑器输出编辑图像隐编码并由解码器对其进行解码,输出目标图像;将像素级别掩码作为权重,对目标图像和原始图像进行加权,以构成编辑后的视频;再次训练四维表征网络,将渲染视角和时间戳序列作为输入,最终输出重建好的6自由度视频。通过本发明的方法,用户可以通过与文本交互,实现对6自由度动态场景的灵活操作。

    基于高斯溅射的四维高斯模型生成方法、系统及设备

    公开(公告)号:CN119338966A

    公开(公告)日:2025-01-21

    申请号:CN202411874568.6

    申请日:2024-12-19

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于高斯溅射的四维高斯模型生成方法、系统及设备,属于计算机视觉处理领域。本发明的方法首先使用预训练的文本到视频扩散模型生成与给定的文本提示一致的目标视频,然后由图像‑网格生成模型将目标视频逐帧转化为一个三维网格模型,对三维网格模型在主视角下的焦距范围内进行渲染,以计算渲染匹配焦距,采用高斯溅射方法训练初始时刻的静态高斯模型,而后训练形变网络,最终由训练好的静态高斯模型和形变网络生成给定时间戳下的四维高斯模型。本发明的方法可以在用明显短的时间内,生成生动的、纹理精细的、几何关系准确的且准确符合用户输入文字语义的高动态4D模型。

    基于对比学习与不变因果性的可泛化图像分类方法及装置

    公开(公告)号:CN116994026A

    公开(公告)日:2023-11-03

    申请号:CN202310684440.2

    申请日:2023-06-09

    Applicant: 浙江大学

    Abstract: 本发明提供了一种基于对比学习与不变因果性的可泛化图像分类方法及装置。该方法包括:从多个环境中采集不同的图像构建多个源域用于训练;构建全局特征队列来存储先前提取过的特征,利用对比学习来学习输入样本和对应正样本之间的相似度;使用对比相似度来量化图像特征之间的因果关系;训练分类器根据该特征预测标签,并选取下一个不同的源域抽取样本进行训练;完成训练后直接将待预测样本输入特征提取器提取特征,并利用该特征直接预测标签。本发明可以使用多个不同源域的数据进行训练得到符合因果关系且可泛化的模型参数,对分布与训练数据有显著差异的目标数据上有稳定且出色的预测结果,解决训练数据有限且目标数据与训练数据分布有显著差别的情况。

    基于扩散模型的图片数据集扩充方法、介质及设备

    公开(公告)号:CN116883545A

    公开(公告)日:2023-10-13

    申请号:CN202310827912.5

    申请日:2023-07-06

    Applicant: 浙江大学

    Abstract: 本发明提供了一种基于扩散模型的图片数据集扩充方法、介质及设备。该方法包括:S1:针对原始图片数据集中的图像,设计对应的文本描述;S2:构建单词‑图像重映射模块嵌入预训练过的扩散模型,使用原始图片和对应文本描述作为输入数据对,训练单词‑图像重映射模块,构建图片到单词的重新映射;S3:固定扩散模型与其中的单词‑图像重映射模块,通过文本描述中单词的重新组合和拼接,构建新的文本描述。通过使用该文本描述与不同的随机噪声,通过扩散模型生成不同于数据集的图片,从而完成对原始图片数据集的扩充。

    基于领域不变的类别特征的可泛化分类方法、系统及设备

    公开(公告)号:CN119295842B

    公开(公告)日:2025-03-21

    申请号:CN202411827374.0

    申请日:2024-12-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于领域不变的类别特征的可泛化分类方法、系统及设备,属于计算机视觉处理领域。本发明的方法首先针对预设类别的分类任务,从多个环境中采集图像,以构建源域图像数据集,对源域图像数据集采样以及预处理后,构建多个用于训练的批处理样本集合,每个预处理后的图像对应一个真实类别标签,然后再批处理样本集合上训练图像分类模型,最终将待分类的图像输入到训练好的图像分类模型中,输出图像类别的分类结果。本发明可以从输入特征之间寻找到领域不变且类别特殊的稳定特征,并基于此预测类别,可以有效提升图像分类模型的泛化能力。

    基于文本驱动的零样本6自由度视频编辑方法及系统

    公开(公告)号:CN119316668A

    公开(公告)日:2025-01-14

    申请号:CN202411854450.7

    申请日:2024-12-17

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的零样本6自由度视频编辑方法及系统,属于计算机视觉处理领域。本发明的方法包括:基于扩散模型逐帧处理多视角源视频,由编码器编码各帧原始图像;在UNet网络的反演过程中注入文本表征,存储每个加噪时间步的交叉注意力图和自注意力图;更新无文本控制向量,由设计好的UNet编辑器输出编辑图像隐编码并由解码器对其进行解码,输出目标图像;将像素级别掩码作为权重,对目标图像和原始图像进行加权,以构成编辑后的视频;再次训练四维表征网络,将渲染视角和时间戳序列作为输入,最终输出重建好的6自由度视频。通过本发明的方法,用户可以通过与文本交互,实现对6自由度动态场景的灵活操作。

    基于领域不变的类别特征的可泛化分类方法、系统及设备

    公开(公告)号:CN119295842A

    公开(公告)日:2025-01-10

    申请号:CN202411827374.0

    申请日:2024-12-12

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于领域不变的类别特征的可泛化分类方法、系统及设备,属于计算机视觉处理领域。本发明的方法首先针对预设类别的分类任务,从多个环境中采集图像,以构建源域图像数据集,对源域图像数据集采样以及预处理后,构建多个用于训练的批处理样本集合,每个预处理后的图像对应一个真实类别标签,然后再批处理样本集合上训练图像分类模型,最终将待分类的图像输入到训练好的图像分类模型中,输出图像类别的分类结果。本发明可以从输入特征之间寻找到领域不变且类别特殊的稳定特征,并基于此预测类别,可以有效提升图像分类模型的泛化能力。

    一种基于跨域不变元表征的推荐方法、介质及设备

    公开(公告)号:CN117993998A

    公开(公告)日:2024-05-07

    申请号:CN202410123591.5

    申请日:2024-01-29

    Applicant: 浙江大学

    Abstract: 本发明提供了一种基于跨域不变元表征的推荐方法扩充方法、介质及设备。该方法包括:通过待检测商品表征表查询商品表征,遍历元商品表征表中的每一行,得到元商品表征,根据相似度从元商品表征表中选取对应的元商品表征与商品表征进行融合,利用非自身相似度矩阵更新原有的商品表征,将最终的融合商品表征输入到推荐模型的编码器中,结合元用户表征表对用户表征进行更新,将新的融合用户表征输入到解码器中,得到预测的商品表征,最后从商品表征表中根据相似度得到对应预测商品信息。本发明的方法利用源域数据中提取跨域不变的元表征,并挖掘源域和目标域用户和商品的共性,作为将推荐模型从源域迁移到目标域的桥梁。

Patent Agency Ranking