-
公开(公告)号:CN114332318A
公开(公告)日:2022-04-12
申请号:CN202111679099.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种虚拟形象生成方法及其相关设备,该方法包括:在获取到待处理语音数据之后,先对该待处理语音数据进行语音特征提取,得到待使用语音特征,以使该待使用语音特征能够表示出该待处理语音数据所携带的语音信息;再根据该待使用语音特征、待使用人脸参数、以及预先构建的虚拟形象生成模型,确定该待处理语音数据对应的虚拟形象展示数据,以使该虚拟形象展示数据能够表示出与该待处理语音数据相匹配的虚拟形象,从而使得该虚拟形象能够展示出在发出该待处理语音数据时人物所呈现的脸部状态,如此能够实现自动生成虚拟形象的目的。
-
公开(公告)号:CN109299304B
公开(公告)日:2021-12-07
申请号:CN201811250718.0
申请日:2018-10-25
Applicant: 科大讯飞股份有限公司
IPC: G06F16/53
Abstract: 本发明公开了一种目标图像检索方法及系统,其中方法包括:提取图像样本库中各图像样本的样本特征点;滤除每幅图像样本中冗余的样本特征点;利用滤除冗余后的样本特征点构建公共特征点集合和私有特征点集合;提取待处理图像的待处理特征点;将所述待处理特征点与所述公共特征点集合和所述私有特征点集合中的样本特征点进行匹配,得到每幅图像样本的匹配得分;选取匹配得分最高的图像样本作为目标图像。本发明通过压缩样本特征点冗余的方式精简图像样本库,在减少匹配次数的同时能够显著加快匹配速度,进而提升匹配的精准度,使得整个检索过程相较现有技术在效率和效果上皆具有明显的改善。
-
公开(公告)号:CN109783684B
公开(公告)日:2021-07-06
申请号:CN201910072964.X
申请日:2019-01-25
Applicant: 科大讯飞股份有限公司
IPC: G06F16/70
Abstract: 本申请提供了一种视频的情感识别方法、装置、设备及可读存储介质,方法包括:获取待识别视频,并基于指定的边界划分依据对待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请提供的情感识别方法具有较高的识别准确度。
-
公开(公告)号:CN112669424A
公开(公告)日:2021-04-16
申请号:CN202011552776.6
申请日:2020-12-24
Applicant: 科大讯飞股份有限公司
IPC: G06T13/80
Abstract: 本申请提供了一种表情动画生成方法、装置、设备及存储介质,其中,方法包括:获取目标图片和目标驱动数据,目标图片为指定动画人物的图片,目标驱动数据为决定指定动画人物脸部动作的数据;根据目标图片获取动画特征点,作为目标图片对应的参考信息;建立目标图片对应的参考信息与目标图片的目标映射关系;基于目标图片、目标驱动数据、目标图片对应的参考信息和目标映射关系,生成指定动画人物的表情动画。本申请提供的表情动画方法可基于指定动画人物的图片以及决定指定动画人物脸部动作的驱动数据自动生成指定动画人物的表情动画,由于动画的生成过程不需要人工参与,因此,节省了人工成本,降低了时间成本,提高了动画生成效率。
-
公开(公告)号:CN109784290B
公开(公告)日:2021-03-05
申请号:CN201910063147.8
申请日:2019-01-23
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种目标检测方法、装置、设备及可读存储介质,目标检测方法包括:获取目标场景下的图像序列中的一待检测图像,获取目标场景下的各类目标在待检测图像各对应位置的出现情况;基于预设的前景检测算法以及目标场景下的各类目标在待检测图像中的出现情况,确定待检测图像对应的目标检测结果。本申请提供的目标检测方法能够大大减少前景检测效果不理想带来的虚警,还能够减少短时间内静止目标的漏警,并且还能够大大降低目标检测的运算量,提高目标检测效率。
-
公开(公告)号:CN111145282A
公开(公告)日:2020-05-12
申请号:CN201911274701.3
申请日:2019-12-12
Applicant: 科大讯飞股份有限公司
IPC: G06T11/00 , G06F16/783 , G06N3/08
Abstract: 本发明实施例提供一种虚拟形象合成方法、装置、电子设备和存储介质,其中方法包括:确定语音数据的相关特征;相关特征用于表征语音数据中包含的与发言人表情相关的特征;将形象数据以及相关特征输入至表情合成模型中,得到表情合成模型输出的虚拟形象视频,虚拟形象视频中的虚拟形象配置有对应于语音数据的表情;其中,表情合成模型是基于样本发言人视频,样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质,能够使得虚拟形象表情更好地贴合语音数据,更加自然真实。
-
公开(公告)号:CN119996766A
公开(公告)日:2025-05-13
申请号:CN202510036966.9
申请日:2025-01-09
Applicant: 科大讯飞股份有限公司
IPC: H04N21/44 , H04N21/845 , H04N21/81
Abstract: 本申请提出一种过渡视频生成方法、虚拟角色视频切换方法、装置及设备,应用于人工智能技术领域。其中,该过渡视频生成方法包括:获取第一动画视频和第二动画视频,第一动画视频和第二动画视频是同一虚拟角色的不同动画视频;在第一动画视频的时间轴上,确定打断时间点;根据打断时间点处的视频帧和第二动画视频中的视频帧,生成打断时间点对应的过渡视频,过渡视频用于从播放第一动画视频切换至播放第二动画视频的过渡阶段。从而,通过设置打断时间点和提前生成过渡视频的方式,提高虚拟角色动画视频切换的流畅性。
-
公开(公告)号:CN114332125B
公开(公告)日:2025-04-25
申请号:CN202111656099.7
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种点云重建方法、装置、电子设备和存储介质,其中方法包括:基于目标相机和邻域相机的位姿信息,确定目标相机的待重建图像在邻域相机的候选匹配区域内的候选图像;基于候选图像与待重建图像之间的相似度,从候选图像中确定待重建图像的配对图像;基于待重建图像和配对图像的位置信息,以及目标相机和邻域相机的位姿信息,确定待重建图像的深度信息,并基于待重建图像的深度信息进行点云重建,克服了传统方案中点云重建效果取决于相机位姿的准确度的缺陷,能够在已知点云的基础上,通过设定区域范围,可以点云层面上对场景进行划分,从而实现对特定区域的点云重建,并且还为后续的网格化操作提供了极大的便利。
-
公开(公告)号:CN119496960A
公开(公告)日:2025-02-21
申请号:CN202411486424.3
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/81 , H04N21/466 , H04N21/44 , H04N21/234 , H04N21/25
Abstract: 本申请提出一种视频生成方法、视频生成装置、视频生成设备以及计算机存储介质。所述视频生成方法包括:获取若干模态的输入数据;提取每一种模态输入数据的单模态特征;将若干单模态特征映射到同一维度的潜在表示空间,获取若干潜在模态特征;将所述若干潜在模态特征融合,得到融合模态特征;利用所述融合模态特征,生成目标视频。通过上述视频生成方法,利用映射到同一维度的潜在表示空间将多模态特征实现统一处理,在多模态输入之间建立有效的融合机制,提高多模态信息之间的高效互补和联合表征,有利于生成目标视频的准确性。
-
公开(公告)号:CN119359872A
公开(公告)日:2025-01-24
申请号:CN202411495124.1
申请日:2024-10-24
Applicant: 科大讯飞股份有限公司
Abstract: 本发明涉及人工智能技术领域,提供一种虚拟人表情合成方法、装置、电子设备和存储介质,方法包括:提取参考音频的音频特征,以及基于PDFGC编码器提取人脸参考图像的人脸特征;将所述人脸特征和所述音频特征输入至已训练的基于概率扩散过程的生成模型,得到所述生成模型输出的特征序列;将所述特征序列和所述人脸参考图像输入至PDFGC解码器,得到所述解码器输出的对应于所述参考音频的包含人脸表情的视频。本发明提供的虚拟人表情合成方法、装置、电子设备和存储介质,基于概率扩散过程的生成模型,能够生成更加丰富多样的表情,表情更具有表现力。
-
-
-
-
-
-
-
-
-