-
公开(公告)号:CN117857896A
公开(公告)日:2024-04-09
申请号:CN202410026820.1
申请日:2024-01-08
申请人: 上海人工智能创新中心
IPC分类号: H04N21/8549 , H04N21/8545 , H04N21/845 , H04N21/81 , G06V20/40 , G06V10/30 , G06V10/82 , G06N3/045 , G06N3/08
摘要: 本发明公开了一种视频生成方法、装置、设备及存储介质。该方法包括:获取当前模式、噪声视频以及文本提示信息;将所述噪声视频、文本提示信息以及当前模式对应的掩码视频输入目标模型,得到目标去噪视频,其中,所述目标模型通过目标样本集迭代训练第一模型得到,所述目标样本集包括:视频样本和视频样本中的文本标注,通过本发明的技术方案,能够提升生成视频的准确度和效率。
-
公开(公告)号:CN117768746A
公开(公告)日:2024-03-26
申请号:CN202311863627.5
申请日:2023-12-29
申请人: 上海人工智能创新中心
IPC分类号: H04N21/81 , H04N21/44 , H04N21/234
摘要: 本发明实施例提供了一种长视频的生成方法、装置、设备及存储介质。包括:基于原始文本与大语言模型进行多轮交互,获得目标文本;其中,所述目标文本包括多个场景的子文本以及各场景的持续时长;基于所述目标文本生成至少一个主体对象的图像,并确定各场景对应的主体对象;对于每个场景,根据所述主体对象的图像和/或所述子文本生成所述场景对应的音视频;将各场景的音视频进行拼接,获得目标长视频。本发明实施例提供的长视频的生成方法,基于各场景的主体对象、主体对象的图像及子文本生成目标长视频,可以提高生成的长视频的质量,以及降低生成长视频的成本。
-
公开(公告)号:CN118450213A
公开(公告)日:2024-08-06
申请号:CN202410580251.5
申请日:2024-05-11
申请人: 上海人工智能创新中心
IPC分类号: H04N21/854 , G06N3/045 , G06N3/08 , H04N21/81 , H04N13/275 , H04N13/282 , G06T15/08 , G06T15/20
摘要: 本发明公开了一种4D内容的生成方法、装置、设备及存储介质。基于多个第一时空信息及原始动态神经辐射场生成多个视角的第一视频;将所述多个视角的第一视频和参考视频输入多视角扩散模型,输出多个视角的第二视频;所述多视角扩散模型为预先训练的用于生成多视角视频的神经网络模型;基于所述多个视角的第二视频和所述多个视角的第一视频确定第一损失函数;基于所述第一损失函数对所述原始动态神经辐射场进行训练,获得目标动态神经辐射场;基于所述目标动态辐射场和第二时空信息生成目标4D内容;其中,所述第一时空信息和所述第二时空信息均包括时间信息和空间信息。可以提高4D内容的质量并保证其时空一致性。
-
公开(公告)号:CN116312429A
公开(公告)日:2023-06-23
申请号:CN202310240155.1
申请日:2023-03-13
申请人: 上海人工智能创新中心
IPC分类号: G10H1/00 , G06V20/40 , G06N3/0442 , G10L25/48
摘要: 本发明涉及视频处理技术领域,提出一种用于长时节奏化视频的配乐方法及装置,该方法包括:通过隐式的无条件生成模型提取音频特征;通过上下文感知的条件编码器从长时节奏化视频中提取视频特征;以及通过隐式的条件扩散生成模型使用跨模态注意力模块将所述音频特征和所述视频特征交互融合以生成配乐。通过本发明生成的音乐有更好的节奏匹配度和音乐质量;生成音乐的长度从现有技术的2‑6秒扩充到25‑50秒;可以应用于更多的节奏化视频的场景,将场景从单纯的舞蹈扩充到体育场景。
-
-
-