-
公开(公告)号:CN118675010A
公开(公告)日:2024-09-20
申请号:CN202410688413.7
申请日:2024-05-30
Applicant: 之江实验室
IPC: G06V10/774 , G06V10/82 , G06V20/40 , G06N3/0475 , G06N3/096 , H04N21/44 , H04N21/81
Abstract: 本发明公开了一种基于可微渲染器的视频生成大模型的数据集生成方法、系统及装置,所述方法包括:3D资产管理,获取场景构建所需的3D资产及模型,以及对应词汇描述;场景结构生成,基于场景的文本描述生成场景结构树;3D场景构建,构建场景的布局,结合3D资产生成3D场景;场景优化,在多个视角下进行可微渲染,利用稳定扩散模型和分数蒸馏采样损失进行场景优化;视频渲染,在3D场景中生成动态相机轨迹,渲染生成视频;视频重描述,基于视频基础模型生成关于生成视频的描述,作为视频的标签,构建数据集。本发明不仅能为各种应用提供必要的训练数据集,还能显著提高内容创建的效率和质量,有利于推动相关行业的技术进步和发展。