-
公开(公告)号:CN117336567A
公开(公告)日:2024-01-02
申请号:CN202311030837.6
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
Inventor: 高建清 , 左童春 , 姚仕豪 , 何山 , 郜静文 , 杨硕 , 殷保才 , 殷兵 , 刘烨秋 , 付新勇 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 胡国平 , 刘聪 , 魏思 , 王士进 , 刘权
IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08
Abstract: 本申请公开了一种视频生成方法、装置、设备和存储介质,其中,视频生成方法包括:获取原始文稿和原始文稿的原始配图;获取响应于原始文稿和原始配图而分析得到且用于配音的参考数据;其中,参考数据包含文案文本、表征文案文本所蕴含情感信息的第一文本和至少表征文案文本需采用发音音色的第二文本;基于参考数据进行语音合成,得到视频配音;至少基于原始配图和视频配音,生成目标视频。上述方案,能够提高视频生成效率,降低视频生成成本。
-
-
公开(公告)号:CN119741405A
公开(公告)日:2025-04-01
申请号:CN202510260633.4
申请日:2025-03-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
-
公开(公告)号:CN117745882A
公开(公告)日:2024-03-22
申请号:CN202311727090.X
申请日:2023-12-14
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G06V10/44 , G06V10/80 , G06N3/045 , G06F18/213
Abstract: 本申请公开了一种文图生成方法、装置、设备及存储介质,本申请从输入的描述文本中识别实体描述信息、待显示文本信息及其显示位置信息,其中实体描述信息可以理解为所要生成的图像包含的基础的实体信息,待显示文本信息可以理解为用户希望显示在生成的图像上的文本内容,并且还识别出了该文本内容的显示位置信息,将这三类信息各自独立进行编码之后融合,融合特征同时包含了上述三类信息,将融合特征送入文图生成模型,可以不用对文图生成模型的主体结构进行改动,并且能够让文图生成模型关注到描述文本中的三类不同信息,从而生成更加匹配用户需求的图像。
-
公开(公告)号:CN117574963A
公开(公告)日:2024-02-20
申请号:CN202311396008.X
申请日:2023-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0464 , G06N3/0475 , G06N3/0455 , G06N3/08 , H04N21/44 , H04N5/265 , G06T11/00
Abstract: 本申请公开了一种2D虚拟人视频的生成方法、装置、存储介质及设备,该方法包括:首先获取目标用户的初始用户图像,并响应于目标用户触发的个性化人像生成指令,生成初始用户图像对应的初始人像,然后接收目标用户输入的人像编辑指令,并响应于人像编辑指令,对初始人像进行编辑,生成编辑人像;接着,接收目标用户输入的语音信息,进而响应于目标用户触发的2D虚拟人视频生成指令,根据编辑人像和目标用户输入的语音信息,生成包含目标用户的2D虚拟人视频。从而能够自动生成符合各目标用户个性化需求的2D虚拟人视频,并展示给用户,进而提高了目标用户的交互体验。
-
公开(公告)号:CN117332118A
公开(公告)日:2024-01-02
申请号:CN202311396041.2
申请日:2023-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06F16/783
Abstract: 本申请公开了一种故事视频的生成方法、装置、存储介质及设备,该方法包括:首先接收目标用户输入的目标故事情节信息,以及获取目标用户选择的目标预设角色形象,然后根据目标用户输入的目标故事情节信息,结合目标预设角色形象,生成目标故事文本,并提取出目标预设角色形象所在图片中目标预设角色的位置信息,接着,根据目标故事文本和目标预设角色的位置信息,预测出包含目标预设角色形象的故事图像;并获取目标故事文本中一个或多个角色所对应的文本音频,进而响应于目标用户触发的绘本故事视频生成指令,可以将故事图像和文本音频进行合成处理,得到目标故事文本对应的绘本故事视频,以呈现给目标用户,提高其交互体验。
-
公开(公告)号:CN117173284A
公开(公告)日:2023-12-05
申请号:CN202311030829.1
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G06V10/44 , G06V10/82 , G06F18/213 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/045
Abstract: 本申请公开了一种图像生成方法、装置、设备和存储介质,其中,图像生成方法包括:获取原始图像;显示对原始图像分析得到的图像描述文本;响应于对图像描述文本的编辑指令,获取图像描述文本编辑之后的目标描述文本;显示基于目标描述文本所生成的目标图像。上述方案,仅需用户根据实际需求对原始图像的图像描述文本进行编辑,便可基于编辑后的目标描述文本自动生成用户期望的目标图像,无需用户花费大量时间手动编辑原始图像,提高了生成目标图像的效率。
-
公开(公告)号:CN116152447B
公开(公告)日:2023-09-26
申请号:CN202310431115.5
申请日:2023-04-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种人脸建模方法、装置、电子设备及存储介质,所述人脸建模方法,包括:获得包含目标人脸的影像数据;利用预先训练的面部参数处理模型,对所述影像数据中的目标人脸进行参数化建模,得到所述目标人脸的面部参数;其中,所述面部参数处理模型至少基于样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模,训练能够基于包含目标人脸的影像数据,获得目标人脸的面部参数的面部参数处理模型,使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。
-
公开(公告)号:CN115471618A
公开(公告)日:2022-12-13
申请号:CN202211327163.1
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种重定向方法、装置、电子设备和存储介质,方法包括基于目标对象的特定部位图像进行目标对象的特定部位三维重建,得到第一三维模型,并确定与目标对象对应的虚拟身份信息。其中,虚拟身份信息能够体现与目标对象的特定部位对应的虚拟形象的外形轮廓特征。然后从第一三维模型中提取得到动作信息,该动作信息能够体现目标对象的特定部位图像中的目标对象的特定部位的动作特征。通过对虚拟身份信息和动作信息进行融合,得到携带动作信息的虚拟形象,由于虚拟形象所携带的动作信息是基于目标对象的特定部位的动作特征生成的,能够使虚拟形象执行的动作与目标对象的特定部位的动作一致。
-
公开(公告)号:CN116188649A
公开(公告)日:2023-05-30
申请号:CN202310472056.6
申请日:2023-04-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置,基于目标语音的语音特征和目标情绪特征,按照偏移预测参数,进行三维模型顶点偏移预测,按照预测得到的三维模型顶点偏移数据,驱动三维基础模型,得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征,进行三维模型顶点偏移预测处理而确定的;4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型,按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据,提高了样本数据的数据量和情绪多样性,从而提高了语音驱动三维人脸模型的准确度和情绪化效果。
-
-
-
-
-
-
-
-
-