-
公开(公告)号:CN115393487B
公开(公告)日:2023-05-12
申请号:CN202211327162.7
申请日:2022-10-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种虚拟角色模型处理方法、装置、电子设备及存储介质,所述虚拟角色模型处理方法,在获得具有目标纹理的参考图像,以及虚拟角色三维模型的二维图像后,基于对参考图像的纹理编码和对二维图像的结构编码,获得参考图像的目标纹理特征编码和二维图像的目标结构特征编码,保证了纹理特征和结构特征的精确解耦,从而确保后续在对所述目标结构特征编码和目标纹理特征编码进行联合解码的过程中,参考图像的目标纹理特征能够有效迁移至虚拟角色三维模型,有效的保证了虚拟角色三维模型的纹理真实性。
-
公开(公告)号:CN115996303A
公开(公告)日:2023-04-21
申请号:CN202310290547.9
申请日:2023-03-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/44 , G06V40/16 , G06V10/80 , G06N3/0442 , G06N3/094 , H04N21/439 , H04N21/472 , G10L25/57
Abstract: 本发明涉及图像处理技术领域,提供一种视频生成方法、装置、电子设备和存储介质。方法包括:获取混合语音和多人画面,并对所述多人画面进行人脸检测,获得多个人脸图像,所述混合语音包括至少一人的语音;基于所述多个人脸图像的图像特征和所述混合语音的语音特征,生成多个目标人脸图像组,任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像;将所述多个目标人脸图像组与所述多人画面进行融合,得到多帧目标多人同屏画面,并将所述多帧目标多人同屏画面与所述混合语音进行融合,得到多人会话视频。本发明无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频,从而节省人工成本,提高多人会话视频的制作效率。
-
公开(公告)号:CN115375809A
公开(公告)日:2022-11-22
申请号:CN202211310590.9
申请日:2022-10-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了虚拟形象的生成方法、装置、设备及存储介质,具体实现方案为:基于获取到的表达信息确定情绪特征以及脸部特征;基于所述情绪特征对特定视频序列进行情绪编辑处理,得到具有所述情绪特征的视频序列;其中,所述特定视频序列,包括特定对象的包含脸部的视频序列;至少基于具有所述情绪特征的视频序列以及所述脸部特征,生成目标对象的虚拟形象。根据本申请的技术方案,能够有效解决生成的虚拟形象表达情绪单一的问题。
-
公开(公告)号:CN108231062B
公开(公告)日:2020-12-22
申请号:CN201810032112.3
申请日:2018-01-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音翻译方法及装置,所述方法包括:对于需要进行文本翻译的语音数据,通过对该语音数据进行语音识别,生成语音识别文本;并从该语音数据中提取声学特征,根据提取的声学特征对语音识别文本进行翻译,得到携带了该语音数据的语音风格的翻译文本。可见,由于在对语音数据进行文本翻译时,考虑了语音数据本身具有的声学特征,使得翻译文本能够符合该语音数据的风格和特点,从而使得翻译文本更自然、更具有表达力,进而便于文本阅读者理解语义和语境。
-
公开(公告)号:CN119648874A
公开(公告)日:2025-03-18
申请号:CN202411486623.4
申请日:2024-10-23
Applicant: 科大讯飞股份有限公司
Abstract: 本说明书实施例提供了一种动作合成方法,该方法通过确定输入视频相应关键点序列;然后基于关键点序列执行加噪处理;并在对噪声序列进行去噪处理的过程中,将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程,其第一阶段基于音频特征进行,其第二阶段在第一阶段的隐空间中基于语义特征进行;该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程,由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构,在音频特征的基础上,细化描述了语义特征,提高了动作合成的准确性。
-
公开(公告)号:CN119444955A
公开(公告)日:2025-02-14
申请号:CN202510032187.1
申请日:2025-01-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种图像渲染方法、装置、设备和存储介质,该方法包括:获取三维点云,三维点云包括多个三维点,三维点的属性包括位置属性和色彩相关属性,色彩相关属性包括颜色信息,还包括透明度和反射率中的至少一者;从三维点云中确定目标视角下的渲染图中各像素点分别对应的点集;基于各像素点对应的点集中三维点的属性,确定各像素点的像素值。上述方案,能够提升渲染效果。
-
公开(公告)号:CN119417956A
公开(公告)日:2025-02-11
申请号:CN202411478902.6
申请日:2024-10-22
Applicant: 科大讯飞股份有限公司
IPC: G06T13/40 , G06V40/20 , G06V10/82 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种运动仿真方法、装置、电子设备和存储介质,其中方法包括:基于虚拟运动参数,从各种步态序列中,选取出仿真所需的目标序列,所述各种步态序列是基于真实运动视频中各帧图像的步态识别结果,对所述真实运动视频进行划分得到的;基于所述目标序列,进行运动仿真。本发明提供的方法、装置、电子设备和存储介质,需基础的摄像机即可实现,无需成套的拍摄设备,且一条真实运动视频即可拆分各种步态序列以支持运动仿真,运动仿真所需的视频数据量大减,这使得运动仿真所需的成本大大降低,为运动仿真的实现提供了便利。另外,以步态识别结果拆分所得的步态序列,实现了针对运动仿真的精细化控制,有助于运动仿真的效果优化。
-
公开(公告)号:CN111144110B
公开(公告)日:2024-06-04
申请号:CN201911380064.8
申请日:2019-12-27
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/30 , G06F40/242 , G06N3/0455 , G06N3/084
Abstract: 本申请实施例提供一种拼音标注方法、装置、服务器及存储介质,该方法包括:获取待标注文本,待标注文本包含至少一个多音字;将待标注文本输入训练好的拼音标注模型,对待标注文本进行处理,得到待标注文本的拼音标注;拼音标注模型包括文本编码网络和拼音预测网络;对待标注文本进行处理,得到待标注文本的拼音标注,包括:利用文本编码网络对待标注文本进行编码处理,得到待标注文本中每个字的输出向量;利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;目标多音字为至少一个多音字中的任一个。本申请实施例可以提高拼音标注的效率。
-
公开(公告)号:CN117750125A
公开(公告)日:2024-03-22
申请号:CN202311872648.3
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司
IPC: H04N21/44 , H04N21/472
Abstract: 本申请公开了一种视频合成方法、装置、设备及存储介质支持多模态条件信息控制下的视频合成,方法包括:获取指定的初始图像,及与待合成视频匹配的多模态条件信息,所述多模态条件信息包括与所述待合成视频匹配的音频信息和/或文本描述信息;提取所述初始图像对应的初始骨架图;以所述多模态条件信息作为控制条件,利用配置的扩散模型在所述控制条件的指导下,生成与所述多模态条件信息语义匹配的连续骨架图,由所述初始骨架图及生成的所述连续骨架图依序组成目标骨架图序列;基于所述目标骨架图序列对所述初始图像的图像特征进行变形,以生成视频序列。实现了根据用户的合成要求,对初始图像进行视频合成的目的,满足用户个性化的合成需求。
-
公开(公告)号:CN115996303B
公开(公告)日:2023-07-25
申请号:CN202310290547.9
申请日:2023-03-23
Applicant: 科大讯飞股份有限公司
IPC: H04N21/44 , G06V40/16 , G06V10/80 , G06N3/0442 , G06N3/094 , H04N21/439 , H04N21/472 , G10L25/57
Abstract: 本发明涉及图像处理技术领域,提供一种视频生成方法、装置、电子设备和存储介质。方法包括:获取混合语音和多人画面,并对所述多人画面进行人脸检测,获得多个人脸图像,所述混合语音包括至少一人的语音;基于所述多个人脸图像的图像特征和所述混合语音的语音特征,生成多个目标人脸图像组,任一所述目标人脸图像组包括一个人在不同帧的目标人脸图像;将所述多个目标人脸图像组与所述多人画面进行融合,得到多帧目标多人同屏画面,并将所述多帧目标多人同屏画面与所述混合语音进行融合,得到多人会话视频。本发明无需对多个人的视频进行合成即可自动生成多人同屏的多人会话视频,从而节省人工成本,提高多人会话视频的制作效率。
-
-
-
-
-
-
-
-
-