文图生成方法、装置、设备及存储介质

    公开(公告)号:CN117745882A

    公开(公告)日:2024-03-22

    申请号:CN202311727090.X

    申请日:2023-12-14

    Abstract: 本申请公开了一种文图生成方法、装置、设备及存储介质,本申请从输入的描述文本中识别实体描述信息、待显示文本信息及其显示位置信息,其中实体描述信息可以理解为所要生成的图像包含的基础的实体信息,待显示文本信息可以理解为用户希望显示在生成的图像上的文本内容,并且还识别出了该文本内容的显示位置信息,将这三类信息各自独立进行编码之后融合,融合特征同时包含了上述三类信息,将融合特征送入文图生成模型,可以不用对文图生成模型的主体结构进行改动,并且能够让文图生成模型关注到描述文本中的三类不同信息,从而生成更加匹配用户需求的图像。

    一种故事视频的生成方法、装置、存储介质及设备

    公开(公告)号:CN117332118A

    公开(公告)日:2024-01-02

    申请号:CN202311396041.2

    申请日:2023-10-24

    Abstract: 本申请公开了一种故事视频的生成方法、装置、存储介质及设备,该方法包括:首先接收目标用户输入的目标故事情节信息,以及获取目标用户选择的目标预设角色形象,然后根据目标用户输入的目标故事情节信息,结合目标预设角色形象,生成目标故事文本,并提取出目标预设角色形象所在图片中目标预设角色的位置信息,接着,根据目标故事文本和目标预设角色的位置信息,预测出包含目标预设角色形象的故事图像;并获取目标故事文本中一个或多个角色所对应的文本音频,进而响应于目标用户触发的绘本故事视频生成指令,可以将故事图像和文本音频进行合成处理,得到目标故事文本对应的绘本故事视频,以呈现给目标用户,提高其交互体验。

    一种人脸建模方法、装置、电子设备及存储介质

    公开(公告)号:CN116152447B

    公开(公告)日:2023-09-26

    申请号:CN202310431115.5

    申请日:2023-04-21

    Abstract: 本申请提供一种人脸建模方法、装置、电子设备及存储介质,所述人脸建模方法,包括:获得包含目标人脸的影像数据;利用预先训练的面部参数处理模型,对所述影像数据中的目标人脸进行参数化建模,得到所述目标人脸的面部参数;其中,所述面部参数处理模型至少基于样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据,以及与所述人脸影像数据对应的语音数据进行人脸参数建模,训练能够基于包含目标人脸的影像数据,获得目标人脸的面部参数的面部参数处理模型,使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。

    重定向方法、装置、电子设备和存储介质

    公开(公告)号:CN115471618A

    公开(公告)日:2022-12-13

    申请号:CN202211327163.1

    申请日:2022-10-27

    Abstract: 本申请提出一种重定向方法、装置、电子设备和存储介质,方法包括基于目标对象的特定部位图像进行目标对象的特定部位三维重建,得到第一三维模型,并确定与目标对象对应的虚拟身份信息。其中,虚拟身份信息能够体现与目标对象的特定部位对应的虚拟形象的外形轮廓特征。然后从第一三维模型中提取得到动作信息,该动作信息能够体现目标对象的特定部位图像中的目标对象的特定部位的动作特征。通过对虚拟身份信息和动作信息进行融合,得到携带动作信息的虚拟形象,由于虚拟形象所携带的动作信息是基于目标对象的特定部位的动作特征生成的,能够使虚拟形象执行的动作与目标对象的特定部位的动作一致。

    基于语音的三维人脸模型驱动方法及相关装置

    公开(公告)号:CN116188649A

    公开(公告)日:2023-05-30

    申请号:CN202310472056.6

    申请日:2023-04-27

    Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置,基于目标语音的语音特征和目标情绪特征,按照偏移预测参数,进行三维模型顶点偏移预测,按照预测得到的三维模型顶点偏移数据,驱动三维基础模型,得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征,进行三维模型顶点偏移预测处理而确定的;4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型,按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据,提高了样本数据的数据量和情绪多样性,从而提高了语音驱动三维人脸模型的准确度和情绪化效果。

Patent Agency Ranking