-
公开(公告)号:CN119338966A
公开(公告)日:2025-01-21
申请号:CN202411874568.6
申请日:2024-12-19
Applicant: 浙江大学
IPC: G06T15/00 , G06T17/00 , G06V10/75 , G06V10/774
Abstract: 本发明公开了一种基于高斯溅射的四维高斯模型生成方法、系统及设备,属于计算机视觉处理领域。本发明的方法首先使用预训练的文本到视频扩散模型生成与给定的文本提示一致的目标视频,然后由图像‑网格生成模型将目标视频逐帧转化为一个三维网格模型,对三维网格模型在主视角下的焦距范围内进行渲染,以计算渲染匹配焦距,采用高斯溅射方法训练初始时刻的静态高斯模型,而后训练形变网络,最终由训练好的静态高斯模型和形变网络生成给定时间戳下的四维高斯模型。本发明的方法可以在用明显短的时间内,生成生动的、纹理精细的、几何关系准确的且准确符合用户输入文字语义的高动态4D模型。
-
公开(公告)号:CN116824189A
公开(公告)日:2023-09-29
申请号:CN202310809759.3
申请日:2023-07-03
Applicant: 浙江大学
IPC: G06V10/762 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0895 , G06N3/091 , G06N3/0464 , G06N3/045 , G06N3/042
Abstract: 本发明公开了一种基于空间结构多样性的数据点语义聚类主动学习方法及装置。其步骤如下:1)将原始点云分组为各个超点,随机选取少量的超点进行人工标注,训练一个初步的模型;2)使用基于权重的超点不确定性估计方法和空间‑结构多样性推理方法,来选择将被人工标注的候选超点;3)利用噪声感知迭代标记策略,将纯度低于阈值的候选超点分割成多个子区域处理。将候选超点进行人工标注,并微调模型;4)对剩余的未标注超点计算softmax entropy,结构复杂度,颜色不连续性三个指标,给区域信息评分排名较高的一批未标注超点打上伪标签,成为已标注数据;5)回到步骤2,利用已标注数据重新训练或微调模型,并重复循环,直到人工标注预算耗尽。
-
公开(公告)号:CN119316668B
公开(公告)日:2025-03-21
申请号:CN202411854450.7
申请日:2024-12-17
Applicant: 浙江大学
IPC: H04N21/44 , H04N21/854 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于文本驱动的零样本6自由度视频编辑方法及系统,属于计算机视觉处理领域。本发明的方法包括:基于扩散模型逐帧处理多视角源视频,由编码器编码各帧原始图像;在UNet网络的反演过程中注入文本表征,存储每个加噪时间步的交叉注意力图和自注意力图;更新无文本控制向量,由设计好的UNet编辑器输出编辑图像隐编码并由解码器对其进行解码,输出目标图像;将像素级别掩码作为权重,对目标图像和原始图像进行加权,以构成编辑后的视频;再次训练四维表征网络,将渲染视角和时间戳序列作为输入,最终输出重建好的6自由度视频。通过本发明的方法,用户可以通过与文本交互,实现对6自由度动态场景的灵活操作。
-
公开(公告)号:CN114943278B
公开(公告)日:2023-09-12
申请号:CN202210467453.X
申请日:2022-04-27
Applicant: 浙江大学
Abstract: 本发明公开了一种基于强化学习的持续在线群体激励方法、装置及存储介质。其步骤如下:1);提取大规模在线学习系统中用户的基本特征;2)使用图卷积神经网络对原始特征进行特征提取及聚合,得到群体特征;3)利用聚类算法对群体特征进行聚类,形成用户群体的典型特征;4)针对典型用户组分配初始激励模式;并利用持续在线的用户反馈数据训练基于策略的强化学习模型以达到总体活跃度最大化。本发明适用于大规模在线学习中,研讨、实践、合作场景的学生用户激励,其效率高,准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。
-
公开(公告)号:CN119850847A
公开(公告)日:2025-04-18
申请号:CN202510296870.6
申请日:2025-03-13
Applicant: 浙江大学
IPC: G06T17/00 , G06T15/02 , G06N3/0499 , G06N3/048 , G06T3/08
Abstract: 本发明提供了一种基于物理渲染和不确定性估计的三维场景中和谐化对象生成方法,包括:给定三维场景、生成目标对象的文本描述和目标对象在三维场景2D渲染视图中所处位置的矩形框;根据生成目标对象的文本描述,利用多视角图像生成扩散模型构建目标对象几何外观的可变形四面体网格;构建包括材质项预测模块和不确定性项预测模块的特征网络;利用物理渲染技术获取目标对象的渲染图片,对特征网络进行训练优化;根据三维场景、可变形四面体网格和训练后的特征网络输出的材质项得到包含目标对象的多视角场景渲染密集视图和3D模型文件。本发明有效解决了目标对象与场景融合不和谐的问题,增强了目标对象在场景中的真实感和视觉效果。
-
公开(公告)号:CN119295842A
公开(公告)日:2025-01-10
申请号:CN202411827374.0
申请日:2024-12-12
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/82 , G06V10/74 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于领域不变的类别特征的可泛化分类方法、系统及设备,属于计算机视觉处理领域。本发明的方法首先针对预设类别的分类任务,从多个环境中采集图像,以构建源域图像数据集,对源域图像数据集采样以及预处理后,构建多个用于训练的批处理样本集合,每个预处理后的图像对应一个真实类别标签,然后再批处理样本集合上训练图像分类模型,最终将待分类的图像输入到训练好的图像分类模型中,输出图像类别的分类结果。本发明可以从输入特征之间寻找到领域不变且类别特殊的稳定特征,并基于此预测类别,可以有效提升图像分类模型的泛化能力。
-
公开(公告)号:CN114943278A
公开(公告)日:2022-08-26
申请号:CN202210467453.X
申请日:2022-04-27
Applicant: 浙江大学
Abstract: 本发明公开了一种基于强化学习的持续在线群体激励方法、装置及存储介质。其步骤如下:1);提取大规模在线学习系统中用户的基本特征;2)使用图卷积神经网络对原始特征进行特征提取及聚合,得到群体特征;3)利用聚类算法对群体特征进行聚类,形成用户群体的典型特征;4)针对典型用户组分配初始激励模式;并利用持续在线的用户反馈数据训练基于策略的强化学习模型以达到总体活跃度最大化。本发明适用于大规模在线学习中,研讨、实践、合作场景的学生用户激励,其效率高,准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。
-
公开(公告)号:CN114912518B
公开(公告)日:2025-04-18
申请号:CN202210458367.2
申请日:2022-04-27
Applicant: 浙江大学
IPC: G06F18/2431 , G06F18/2413 , G06F18/23213 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/092 , G06Q50/20
Abstract: 本发明公开了一种基于用户群体典型特征的强化学习分组方法、装置及介质。其步骤如下:1)对大规模在线学习系统中的用户画像提取原始特征;2)利用群体关系构建用户网络图,采用图卷积神经网络对个体用户特征进行升维映射,形成群体特征;3)利用可学习的聚类算法对群体特征进行聚类,形成多个用户群体类型;4)利用Q‑learning强化学习算法,在群体典型特征空间进行分组模型学习,最终得到最优的典型特征组合模式。本发明的方法适用于大规模在线学习中,研讨、实践、合作场景的学生用户分组,其分组效率高,准确性好、解释性强。本发明对于大规模在线学习平台中的用户分组教学实践具有十分重要的实际应用价值。
-
公开(公告)号:CN119295842B
公开(公告)日:2025-03-21
申请号:CN202411827374.0
申请日:2024-12-12
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/82 , G06V10/74 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于领域不变的类别特征的可泛化分类方法、系统及设备,属于计算机视觉处理领域。本发明的方法首先针对预设类别的分类任务,从多个环境中采集图像,以构建源域图像数据集,对源域图像数据集采样以及预处理后,构建多个用于训练的批处理样本集合,每个预处理后的图像对应一个真实类别标签,然后再批处理样本集合上训练图像分类模型,最终将待分类的图像输入到训练好的图像分类模型中,输出图像类别的分类结果。本发明可以从输入特征之间寻找到领域不变且类别特殊的稳定特征,并基于此预测类别,可以有效提升图像分类模型的泛化能力。
-
公开(公告)号:CN119316668A
公开(公告)日:2025-01-14
申请号:CN202411854450.7
申请日:2024-12-17
Applicant: 浙江大学
IPC: H04N21/44 , H04N21/854 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于文本驱动的零样本6自由度视频编辑方法及系统,属于计算机视觉处理领域。本发明的方法包括:基于扩散模型逐帧处理多视角源视频,由编码器编码各帧原始图像;在UNet网络的反演过程中注入文本表征,存储每个加噪时间步的交叉注意力图和自注意力图;更新无文本控制向量,由设计好的UNet编辑器输出编辑图像隐编码并由解码器对其进行解码,输出目标图像;将像素级别掩码作为权重,对目标图像和原始图像进行加权,以构成编辑后的视频;再次训练四维表征网络,将渲染视角和时间戳序列作为输入,最终输出重建好的6自由度视频。通过本发明的方法,用户可以通过与文本交互,实现对6自由度动态场景的灵活操作。
-
-
-
-
-
-
-
-
-