-
公开(公告)号:CN119996766A
公开(公告)日:2025-05-13
申请号:CN202510036966.9
申请日:2025-01-09
Applicant: 科大讯飞股份有限公司
IPC: H04N21/44 , H04N21/845 , H04N21/81
Abstract: 本申请提出一种过渡视频生成方法、虚拟角色视频切换方法、装置及设备,应用于人工智能技术领域。其中,该过渡视频生成方法包括:获取第一动画视频和第二动画视频,第一动画视频和第二动画视频是同一虚拟角色的不同动画视频;在第一动画视频的时间轴上,确定打断时间点;根据打断时间点处的视频帧和第二动画视频中的视频帧,生成打断时间点对应的过渡视频,过渡视频用于从播放第一动画视频切换至播放第二动画视频的过渡阶段。从而,通过设置打断时间点和提前生成过渡视频的方式,提高虚拟角色动画视频切换的流畅性。
-
公开(公告)号:CN114173067A
公开(公告)日:2022-03-11
申请号:CN202111574773.7
申请日:2021-12-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种视频生成方法、装置、设备及存储介质,该方法包括:通过从预先构建的视频资源库中确定与视频剧本中的各个剧本关键词相匹配的视频资源,确定与各个剧本关键词一一对应的各个播放标签;所述播放标签中至少包括与剧本关键词相匹配的视频资源的索引信息;根据各个播放标签对应的视频资源,确定特效标签;所述特效标签中包括视频资源播放特效标签和/或相邻视频资源之间的视频转场特效标签;至少根据各个播放标签和所述特效标签进行视频剪辑处理,得到视频文件。采用该方法能够自动生成视频文件,从而能够降低视频制作的人力成本和时间成本。
-
公开(公告)号:CN109862313A
公开(公告)日:2019-06-07
申请号:CN201811518639.3
申请日:2018-12-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频浓缩方法及装置,该方法包括:获取包括多个运动目标的待浓缩视频,随后为各个浓缩图像选择运动目标组合方式,该各个浓缩图像是对待浓缩视频进行浓缩后得到的各个帧图像,以便根据各个浓缩图像中的运动目标组合方式,对待浓缩视频进行视频浓缩。可见,本申请可以为每一帧浓缩图像选择一种合理的运动目标组合方式,从而使每帧浓缩图像中的各个运动目标能够最大限度的占据图像空间、并使每帧浓缩图像中的不同运动目标之间的重叠程度尽量小,进而提高浓缩视频的浓缩精度。
-
公开(公告)号:CN119629295A
公开(公告)日:2025-03-14
申请号:CN202411879800.5
申请日:2024-12-19
Applicant: 科大讯飞股份有限公司
IPC: H04N5/265 , G10L13/02 , G10L13/08 , G06V40/16 , G06F40/205
Abstract: 本申请公开了一种视频翻译方法及相关装置,涉及视频处理技术领域,包括:获取待翻译的原始视频之后,先利用原始视频中说话者的声纹特征和情绪标签进行语音合成,得到目标语言的语音数据,再将目标语言的语音数据替换原始视频中的原始语音数据,得到初始翻译视频,然后利用目标语言的语音数据进行说话者嘴部区域图像合成,得到说话者嘴部区域的合成图像,最后将说话者嘴部区域的合成图像与初始翻译视频进行融合,得到最终翻译视频。该方案能够尽量还原视频原声,并尽量贴合原视频中人物的说话状态,而且能够保证最终翻译视频中,在口唇画面丢失或者出现前后画面的自然过渡,因此可以提升用户听觉感受和视觉感受。
-
公开(公告)号:CN119323625A
公开(公告)日:2025-01-17
申请号:CN202411866722.5
申请日:2024-12-18
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G10L13/08 , G06V40/20 , G06F16/732 , G06F16/783
Abstract: 本申请提出一种合成视频的方法、电子设备及计算机程序产品。该合成视频的方法包括:获取包含第一虚拟对象的第一视频以及包含目标虚拟对象的肢体动作的第二视频,针对第一视频,去除目标视频段中第一虚拟对象的目标肢体部位,得到待合成视频,目标视频段为第一视频中对应动作插入时段的视频段;基于第二视频和目标视频段的时序对应关系,将第二视频各视频帧的目标肢体部位拼接到待合成视频各视频帧的目标肢体部位缺失处,生成合成视频。由于第二视频仅包含目标肢体部位,因此,可以做到虚拟对象与肢体动作的解耦。在虚拟对象为虚拟人物的情况下,制作第二视频/动作视频时,无需考虑人物主要身体部位的穿着打扮,甚至无需考虑人物的身份。
-
公开(公告)号:CN116088675A
公开(公告)日:2023-05-09
申请号:CN202211643916.X
申请日:2022-12-20
Applicant: 科大讯飞股份有限公司
IPC: G06F3/01 , G10L15/22 , G10L15/30 , G10L13/04 , G10L21/10 , G10L21/18 , H04N5/262 , H04N5/04 , G06T13/40
Abstract: 本申请公开了一种虚拟形象交互方法及相关装置、设备、系统和介质,其中,虚拟形象交互方法包括:获取并播放第一视频流;响应于用户在播放第一视频流时的第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器;其中,交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从打断位置开始继续合成新的第一视频流;获取并播放交互应答服务器新合成的视频流。上述方案,能够提升虚拟形象交互的自然度。
-
公开(公告)号:CN119417956A
公开(公告)日:2025-02-11
申请号:CN202411478902.6
申请日:2024-10-22
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06V40/20 , G06V10/82 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种运动仿真方法、装置、电子设备和存储介质,其中方法包括:基于虚拟运动参数,从各种步态序列中,选取出仿真所需的目标序列,所述各种步态序列是基于真实运动视频中各帧图像的步态识别结果,对所述真实运动视频进行划分得到的;基于所述目标序列,进行运动仿真。本发明提供的方法、装置、电子设备和存储介质,需基础的摄像机即可实现,无需成套的拍摄设备,且一条真实运动视频即可拆分各种步态序列以支持运动仿真,运动仿真所需的视频数据量大减,这使得运动仿真所需的成本大大降低,为运动仿真的实现提供了便利。另外,以步态识别结果拆分所得的步态序列,实现了针对运动仿真的精细化控制,有助于运动仿真的效果优化。
-
公开(公告)号:CN116580127A
公开(公告)日:2023-08-11
申请号:CN202310856919.X
申请日:2023-07-13
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种图像生成方法、装置、电子设备和计算机可读存储介质,该方法包括:获取第一生成图像;响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息;基于第一生成信息生成调整图像;利用调整图像对待调整区域进行调整,得到第二生成图像,上述方案,能够提高图像生成效率。
-
公开(公告)号:CN115996303B
公开(公告)日:2023-07-25
申请号:CN202310290547.9
申请日:2023-03-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/44 , G06V40/16 , G06V10/80 , G06N3/0442 , G06N3/094 , H04N21/439 , H04N21/472 , G10L25/57
Abstract: 本发明涉及图像处理技术领域,提供一种视频生成方法、装置、电子设备和存储介质。方法包括:获取混合语音和多人画面,并对所述多人画面进行人脸检测,获得多个人脸图像,所述混合语音包括至少一人的语音;基于所述多个人脸图像的图像特征和所述混合语音的语音特征,生成多个目标人脸图像组,任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像;将所述多个目标人脸图像组与所述多人画面进行融合,得到多帧目标多人同屏画面,并将所述多帧目标多人同屏画面与所述混合语音进行融合,得到多人会话视频。本发明无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频,从而节省人工成本,提高多人会话视频的制作效率。
-
公开(公告)号:CN119741405A
公开(公告)日:2025-04-01
申请号:CN202510260633.4
申请日:2025-03-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
-
-
-
-
-
-
-
-
-