-
公开(公告)号:CN119741405A
公开(公告)日:2025-04-01
申请号:CN202510260633.4
申请日:2025-03-06
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种动作数据生成方法、装置、设备、存储介质和程序产品,涉及人工智能技术领域,包括:获得目标语音的音频特征以及目标语音对应的文本;基于对文本的语义理解,确定文本中需要数字人同步执行肢体动作的目标文本段,每个目标文本段对应的肢体动作的类别,以及每个目标文本段对应的待生成的骨架动作序列中的各个动作帧的位置编码;对应每个目标文本段,至少将音频特征、该目标文本段对应的肢体动作的类别以及该目标文本段对应的各个动作帧的位置编码作为扩散模型的控制条件,通过扩散模型生成与该目标文本段对应的骨架动作序列。本申请提高了基于骨架动作序列驱动的数字人的肢体动作与语音内容的匹配度。
-
公开(公告)号:CN119544905A
公开(公告)日:2025-02-28
申请号:CN202411674436.9
申请日:2024-11-21
Applicant: 科大讯飞股份有限公司
IPC: H04N7/01 , H04N21/2343 , H04N21/4402
Abstract: 本申请提出一种视频插帧方法、装置、电子设备、存储介质及产品,该方法基于运动模糊预测算法,预测第一图像帧和第二图像帧之间的插入帧的运动模糊权重;其中,第一图像帧和第二图像帧为待插帧视频中的相邻图像帧;基于插帧生成算法,利用运动模糊权重、第一图像帧的像素信息和第二图像帧的像素信息,生成插入帧的第一像素信息;运动模糊预测算法和插帧生成算法是以对第一样本图像帧和第二样本图像帧进行样本插入帧生成时的损失函数最小为目标训练确定的。本方案在确定相邻图像帧之间的插入帧时,对相邻图像帧进行运动模糊分析,运动模糊效果能够捕捉到运动路径和运动速度,从而能够提高插入帧生成准确度,保证插帧效果,进而提高视频流畅度。
-
公开(公告)号:CN119418714A
公开(公告)日:2025-02-11
申请号:CN202411485954.6
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: G10L21/10 , G10L21/16 , G10L21/057 , G10L25/63 , G06V40/20 , G06V40/16 , G06N3/0455 , G06N3/098 , G06F18/24 , G10L21/06
Abstract: 本申请提出一种手语生成方法、装置、电子设备、存储介质及产品,该方法对说话人的语音音频中的每帧音频帧进行情感分类,确定语音音频对应的情感特征序列;基于语音音频和情感特征序列,对说话人动作图片帧中的说话人面部动作和手部动作进行调整,生成语音音频对应的说话人手语动作图片序列。采用本申请的技术方案,能够将语音音频结合语音音频的情感特征对说话人动作图片帧中的说话人面部动作和手部动作进行调整,使得说话人的手语动作和面部表情具有情感特征,提高了手语生成的情感度。另外,说话人手语动作图片序列中的说话人面部动作和手部动作的风格与听障人士的手语表达风格相同,提高了手语生成的准确度,更方便听障人士的理解。
-
公开(公告)号:CN117765129A
公开(公告)日:2024-03-26
申请号:CN202311730747.8
申请日:2023-12-15
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G06T9/00 , G06V10/86 , G06F40/106
Abstract: 本申请实施例公开了一种文图生成方法、装置、设备及存储介质,先基于目标文本获得目标文本描述的目标实体在画面中的布局信息,然后基于布局信息以及目标文本生成符合目标文本描述内容的目标图像。本申请通过在基于目标文本生成图像时融入目标文本描述的目标实体在画面中的布局信息,避免生成的目标图像出现实体缺失或混淆的问题,从而提高文图生成效果。
-
公开(公告)号:CN117745882A
公开(公告)日:2024-03-22
申请号:CN202311727090.X
申请日:2023-12-14
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G06V10/44 , G06V10/80 , G06N3/045 , G06F18/213
Abstract: 本申请公开了一种文图生成方法、装置、设备及存储介质,本申请从输入的描述文本中识别实体描述信息、待显示文本信息及其显示位置信息,其中实体描述信息可以理解为所要生成的图像包含的基础的实体信息,待显示文本信息可以理解为用户希望显示在生成的图像上的文本内容,并且还识别出了该文本内容的显示位置信息,将这三类信息各自独立进行编码之后融合,融合特征同时包含了上述三类信息,将融合特征送入文图生成模型,可以不用对文图生成模型的主体结构进行改动,并且能够让文图生成模型关注到描述文本中的三类不同信息,从而生成更加匹配用户需求的图像。
-
公开(公告)号:CN117574963A
公开(公告)日:2024-02-20
申请号:CN202311396008.X
申请日:2023-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0464 , G06N3/0475 , G06N3/0455 , G06N3/08 , H04N21/44 , H04N5/265 , G06T11/00
Abstract: 本申请公开了一种2D虚拟人视频的生成方法、装置、存储介质及设备,该方法包括:首先获取目标用户的初始用户图像,并响应于目标用户触发的个性化人像生成指令,生成初始用户图像对应的初始人像,然后接收目标用户输入的人像编辑指令,并响应于人像编辑指令,对初始人像进行编辑,生成编辑人像;接着,接收目标用户输入的语音信息,进而响应于目标用户触发的2D虚拟人视频生成指令,根据编辑人像和目标用户输入的语音信息,生成包含目标用户的2D虚拟人视频。从而能够自动生成符合各目标用户个性化需求的2D虚拟人视频,并展示给用户,进而提高了目标用户的交互体验。
-
公开(公告)号:CN111128118B
公开(公告)日:2024-02-13
申请号:CN201911393613.5
申请日:2019-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法、相关设备及可读存储介质,获取待进行语音合成的文本后,确定该文本对应的情感编码,利用该文本对应的情感编码,得到该文本的语音合成参数,对该文本的语音合成参数进行语音合成处理,得到该文本对应的语音。上述方案中,由于该文本对应的情感编码能够指示该文本进行语音合成时的情感强度,而用户可以根据自身对语音合成的情感强度需求控制该文本对应的情感编码,使得利用该文本对应的情感编码得到的该文本对应的语音,是满足用户对语音合成时的情感强度需求的语音。
-
公开(公告)号:CN117332118A
公开(公告)日:2024-01-02
申请号:CN202311396041.2
申请日:2023-10-24
Applicant: 科大讯飞股份有限公司
IPC: G06F16/783
Abstract: 本申请公开了一种故事视频的生成方法、装置、存储介质及设备,该方法包括:首先接收目标用户输入的目标故事情节信息,以及获取目标用户选择的目标预设角色形象,然后根据目标用户输入的目标故事情节信息,结合目标预设角色形象,生成目标故事文本,并提取出目标预设角色形象所在图片中目标预设角色的位置信息,接着,根据目标故事文本和目标预设角色的位置信息,预测出包含目标预设角色形象的故事图像;并获取目标故事文本中一个或多个角色所对应的文本音频,进而响应于目标用户触发的绘本故事视频生成指令,可以将故事图像和文本音频进行合成处理,得到目标故事文本对应的绘本故事视频,以呈现给目标用户,提高其交互体验。
-
公开(公告)号:CN116152447B
公开(公告)日:2023-09-26
申请号:CN202310431115.5
申请日:2023-04-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种人脸建模方法、装置、电子设备及存储介质,所述人脸建模方法,包括:获得包含目标人脸的影像数据;利用预先训练的面部参数处理模型,对所述影像数据中的目标人脸进行参数化建模,得到所述目标人脸的面部参数;其中,所述面部参数处理模型至少基于样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模,训练能够基于包含目标人脸的影像数据,获得目标人脸的面部参数的面部参数处理模型,使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。
-
公开(公告)号:CN112802444B
公开(公告)日:2023-07-25
申请号:CN202011607966.3
申请日:2020-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请在对待合成的原始文本进行语音合成的过程中,参考了与原始文本存在相匹配的文本片段的匹配文本对应的辅助合成特征,该辅助合成特征为基于匹配文本对应的发音音频所确定的用于辅助语音合成的特征,本申请通过参考匹配文本对应的辅助合成特征,可以利用匹配文本对应的发音音频中发音信息辅助对原始文本进行语音合成,丰富了原始文本语音合成时所参考的信息,进而提高了原始文本的语音合成质量。本申请方案可以适用于带前端预处理和不带前端预处理两种类型的语音合成系统,辅助合成特征可以作为前端文本分析结果也可以直接辅助语音合成系统进行语音合成,均能够提高合成语音的质量。
-
-
-
-
-
-
-
-
-