-
公开(公告)号:CN114332318B
公开(公告)日:2025-01-24
申请号:CN202111679099.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种虚拟形象生成方法及其相关设备,该方法包括:在获取到待处理语音数据之后,先对该待处理语音数据进行语音特征提取,得到待使用语音特征,以使该待使用语音特征能够表示出该待处理语音数据所携带的语音信息;再根据该待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型,确定该待处理语音数据对应的虚拟形象展示数据,以使该虚拟形象展示数据能够表示出与该待处理语音数据相匹配的虚拟形象,从而使得该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态,如此能够实现自动生成虚拟形象的目的。
-
公开(公告)号:CN112465115B
公开(公告)日:2024-05-31
申请号:CN202011341346.X
申请日:2020-11-25
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0475 , G06N3/082 , G06N3/094
Abstract: 本申请公开了一种GAN网络压缩方法、装置、设备及存储介质,对于待压缩的GAN网络,将其中每一层的原始操作子替换为至少一个候选操作子,每一层的输出由每一层替换后的各候选操作子的输出组成,并且候选操作子的计算量小于被替换的原始操作子的计算量,初始化GAN网络中各候选操作子的参数及其权重,交替更新生成网络G和判别网络D,直至GAN网络收敛为止,基于收敛的GAN网络中每一层各候选操作子的最终权重,确定每一层最终保留的操作子,以得到压缩后的GAN网络。本申请方案同时对GAN网络中生成网络G和判别网络D进行压缩,在实现对GAN网络压缩的同时,保证了压缩后GAN网络的平衡性。
-
公开(公告)号:CN117830491A
公开(公告)日:2024-04-05
申请号:CN202311872694.3
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种三维人脸重建方法、装置、设备及可读存储介质,首先对图像采集设备阵列拍摄的人脸图片集合进行稠密点云重建,得到稠密点云数据;再基于预设的人脸关键点,将稠密点云数据与参数化三维人脸模型进行对齐,得到重建的参数化三维人脸模型,并对重建的参数化三维人脸模型的顶点位置进行调整,得到重建的三维人脸网格,避免了重建非参数化三维人脸模型的步骤,简化了处理流程,提升了重建速度,并且,生成人脸纹理贴图时,利用人脸图片集合以及图像采集设备阵列中各个图像采集设备的位姿,对重建的三维人脸网格的纹理进行迭代优化,提升了人脸纹理贴图的效果。
-
公开(公告)号:CN117496054A
公开(公告)日:2024-02-02
申请号:CN202311395911.4
申请日:2023-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种三维人脸构建方法、装置、设备及可读存储介质,本方案中,首先基于三维人脸数据集,以及,预设三维人脸模型模板训练得到三维人脸重建网络模型,在当前场景构建三维人脸时,先采用三维人脸重建网络模型,对人脸图像进行三维人脸重建,得到在预设三维人脸模型模板下的三维人脸;然后对其进行变形迁移处理,即可得到在场景三维人脸模型模板下的三维人脸。在本方案中,只需要训练一个三维人脸重建网络模型,各个场景下的三维人脸均可基于该三维人脸重建网络模型实现构建,无需再训练各个场景下的三维人脸重建网络模型,因此,能够提升在各个场景下的三维人脸构建效率。
-
公开(公告)号:CN117177024A
公开(公告)日:2023-12-05
申请号:CN202311030846.5
申请日:2023-08-14
Applicant: 科大讯飞股份有限公司
Inventor: 胡国平 , 付新勇 , 姚仕豪 , 高建清 , 郜静文 , 刘烨秋 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 何山 , 殷兵 , 刘聪 , 魏思 , 王士进 , 刘权
IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08
Abstract: 本申请公开了一种视频配音方法和相关装置、电子设备及存储介质。该方法包括:获取原始视频;获取基于原始视频的关键帧、用于指示视频配音的第一描述文本、原始文案中至少一种参考信息而得到的文案文本;获取由文案文本合成得到的视频配音;基于原始视频和视频配音,生成目标视频。上述方案,有助于提高对视频配音的效率,并降低视频配音的成本。
-
公开(公告)号:CN116188649A
公开(公告)日:2023-05-30
申请号:CN202310472056.6
申请日:2023-04-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置,基于目标语音的语音特征和目标情绪特征,按照偏移预测参数,进行三维模型顶点偏移预测,按照预测得到的三维模型顶点偏移数据,驱动三维基础模型,得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征,进行三维模型顶点偏移预测处理而确定的;4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型,按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据,提高了样本数据的数据量和情绪多样性,从而提高了语音驱动三维人脸模型的准确度和情绪化效果。
-
-
公开(公告)号:CN116152447A
公开(公告)日:2023-05-23
申请号:CN202310431115.5
申请日:2023-04-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种人脸建模方法、装置、电子设备及存储介质,所述人脸建模方法,包括:获得包含目标人脸的影像数据;利用预先训练的面部参数处理模型,对所述影像数据中的目标人脸进行参数化建模,得到所述目标人脸的面部参数;其中,所述面部参数处理模型至少基于样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模,训练能够基于包含目标人脸的影像数据,获得目标人脸的面部参数的面部参数处理模型,使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。
-
公开(公告)号:CN115810215A
公开(公告)日:2023-03-17
申请号:CN202310083541.4
申请日:2023-02-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种面部图像生成方法、装置、设备及存储介质,涉及神经网络技术领域。该面部图像生成方法包括:获取面部素材数据,面部素材数据包括面部线框图、面部遮罩图、面部描述文本,以及面部参考图中的至少一种;将面部素材数据输入预先训练的面部生成模型,得到面部生成模型生成的与面部素材数据匹配的目标面部图像。通过一种或多种面部素材数据作为面部生成模型的输入,支持用户可以利用不同模式的面部素材数据对目标面部图像的需求进行表达,降低了用户的操作难度,提高了目标面部图像的生成效率以及准确性。
-
公开(公告)号:CN115392216B
公开(公告)日:2023-03-14
申请号:CN202211326587.6
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
IPC: G06F40/205 , G06F40/289 , G06F16/335
Abstract: 本申请提供一种虚拟形象生成方法、装置、电子设备及存储介质,所述虚拟形象生成方法,在生成虚拟形象的过程中,基于对期望虚拟形象的描述文本的分析,获得了期望虚拟形象的整体形象描述文本和局部形象描述文本,实现了对所述描述文本的细粒度解耦,有利于从整体到局部的更全面把握虚拟形象的特征。之后,基于对整体形象描述文本和局部形象描述文本的联合预测,得到了参考了整体形象特征的、与所述局部形象描述文本对应的预测形象特征,即可以实现对预测虚拟形象的局部形象的控制,同时也考虑了预测虚拟形象的整体形象,提高了虚拟形象的局部形象与整体形象之间的关联,同时也提高了生成的虚拟形象的质量。
-
-
-
-
-
-
-
-
-