-
公开(公告)号:CN117729370A
公开(公告)日:2024-03-19
申请号:CN202311695832.5
申请日:2023-12-12
Applicant: 南京邮电大学
IPC: H04N21/44 , G06N3/0464
Abstract: 本发明公开了一种基于潜在扩散模型的文本生成视频方法及系统,包括:通过膨胀潜在扩散模型网络将2D的文生图模型拓展到时空域,并针对源视频进行逐帧分解得到视频帧序列;利用预处理器对视频帧序列进行特征提取得到条件帧序列,引入多帧渲染机制作用在每一个当前生成帧的扩散过程;选择特定时间步长对当前生成帧序列施加平滑优化操作,并经过连续时间步长完成对所有视频帧的处理;根据结果输出生成视频帧序列,合成生成视频;本发明采用微调方法通过网络膨胀将模型拓展到空间域来实现视频生成任务,成本低,易实现;且为了减少生成视频整体结构的闪烁,本发明利用视频插帧技术对生成帧序列进行了过滤平滑,以提高相邻帧细节上的一致性。