多媒体数据的生成方法、设备及存储介质

    公开(公告)号:CN117278819B

    公开(公告)日:2024-10-29

    申请号:CN202311090685.9

    申请日:2023-08-25

    摘要: 本发明涉及数据处理领域,公开了一种多媒体数据的生成方法、设备及存储介质。该方法包括:接收到待处理的文本内容时,根据预设的标点符号,生成文本内容对应的字符数组;根据预设的文本转语音算法为字符数组生成音频,并根据预设的文本转图像算法为字符数组生成视觉数据;根据音频以及视觉数据,为字符数组生成音视频;为音视频生成字幕,得到目标音视频;将目标音视频嵌入文本内容,得到多媒体数据。本发明可以提升用户对文本内容的阅读效率。

    一种语音驱动的2D数字人视频生成方法及可读存储介质

    公开(公告)号:CN118250529A

    公开(公告)日:2024-06-25

    申请号:CN202410658653.2

    申请日:2024-05-27

    IPC分类号: H04N21/85 G10L25/57 G06T13/80

    摘要: 本发明公开了一种语音驱动的2D数字人视频生成方法及可读存储介质,包括:首先获取目标语音,通过音频数据处理得到相应的3D姿态序列。接着,结合目标语音和3D姿态序列,生成精确的头部动作视频。同时,利用用户图像和3D姿态序列生成身体动作视频。最后,通过智能融合技术,将头部和身体动作视频无缝结合,形成流畅的2D数字人视频。如此设计,实现了语音与数字人动作的精准匹配,提升了数字人视频的真实感和自然度,为相关应用提供了高效、便捷的解决方案。

    一种数字人视频生成方法及系统
    3.
    发明公开

    公开(公告)号:CN118196243A

    公开(公告)日:2024-06-14

    申请号:CN202410134829.4

    申请日:2024-01-31

    申请人: 厦门大学

    摘要: 本发明提供了数字人生成技术领域的一种数字人视频生成方法及系统,方法包括:步骤S1、对获取的各第一音频、第一视频进行预处理后构建数据集;步骤S2、从第一视频提取数字人肖像帧,对各数字人肖像帧进行3D重建得到第一表情系数、第一头部姿态系数;步骤S3、对第一音频、第一表情系数、第一头部姿态系数进行推理,得到第二表情系数、第二头部姿态系数;步骤S4、基于数字人肖像帧、第一表情系数、第一头部姿态系数、第二表情系数、第二头部姿态系数对创建的人脸渲染模型进行训练;步骤S5、获取第二音频以及第二视频输入人脸渲染模型得到若干张数字人图像,将各数字人图像合成为数字人视频。本发明的优点在于:极大的提升了数字人仿真效果。

    多场景视频生成方法、装置、设备、存储介质

    公开(公告)号:CN117835013A

    公开(公告)日:2024-04-05

    申请号:CN202311823924.7

    申请日:2023-12-27

    IPC分类号: H04N21/85 H04N21/84

    摘要: 本申请提供一种多场景视频生成方法、装置、设备、存储介质,该方法包括:获取单句文本;将单句文本转换成多场景的视频描述,其中,多场景的视频描述之间具备逻辑关系;根据各场景的视频描述生成各场景的前景实体参考图像和背景实体参考图像;基于各场景的前景实体参考图像和背景实体参考图像,生成多场景视频。本申请提供的方法根据具备逻辑关系的多场景的视频描述,生成多场景视频,保证了不同事件之间具有正确的逻辑性。

    基于人脸识别的数字人客服模拟方法及数字人客服系统

    公开(公告)号:CN117830898A

    公开(公告)日:2024-04-05

    申请号:CN202311872512.2

    申请日:2023-12-31

    发明人: 危明 李民 刘凡

    摘要: 本发明公开了基于人脸识别的数字人客服模拟方法,包括以下步骤:获取客服人员的视频信息并从视频信息中捕捉客服人员的面部动作和肢体动作,并生成相关的动作数据;然后采用BlendShape算法将动作数据、虚拟人模型和预设的BlendShape动画进行拟合,渲染出带有客服人员面部动作和肢体动作的虚拟人动画;再将虚拟人动画与预设的数字场景进行结合,并加入客服人员的语音信息,形成完整的视频流;最后将视频流推送至用户端的应用程序。本发明能够有效提高对虚拟人物的嘴部动作拟真度,并减少虚拟人物动画的不规则表情。

    依据音频生成可视动画的方法以及电子装置

    公开(公告)号:CN117809697A

    公开(公告)日:2024-04-02

    申请号:CN202410093712.6

    申请日:2024-01-23

    发明人: 温佳龙 卢韦华

    摘要: 本发明提供一种依据音频生成可视动画的方法,所述方法包括:读取音频数据并将音频数据转化为numpy数组格式;使用傅里叶变换将音频信号从时域转换为频域并去除高频噪声和杂波;识别音频信号中的节拍位置并将其转化为Byte数据;将每个Byte数据转换为对应的动作指令;从数据库中查询与动作指令对应的动作信息;根据查询到的动作信息,将动作指令转化为动画指令;根据动画指令生成动画并将其保存为视频文件。本发明能够自适应地得到与声音风格相似的动作,能够满足个性化需求。

    处理方法、智能终端及存储介质
    7.
    发明公开

    公开(公告)号:CN117786076A

    公开(公告)日:2024-03-29

    申请号:CN202311816081.8

    申请日:2023-12-25

    摘要: 本申请提出了一种处理方法、智能终端及存储介质,处理方法应可用于智能终端,包括步骤:基于第一信息确定或生成对应的第二信息;基于所述第二信息合成目标音视频,将所述目标音视频提供至第一用户;根据所述第一用户提供的第三信息确定或生成对应的报告。通过本申请,可以根据第一用户的情况匹配合适的问答方式,提高问答过程的针对性,从而提升用户的使用体验,提高问答结果的准确性。

    一种基于扩散模型的视频图像编辑的高效方法

    公开(公告)号:CN117768678A

    公开(公告)日:2024-03-26

    申请号:CN202311780597.1

    申请日:2023-12-22

    发明人: 张青青 王晓飞

    摘要: 本发明涉及视频图像编辑技术领域,尤其涉及一种基于扩散模型的视频图像编辑的高效方法,以视频数据作为输入,在隐空间进行扩散模型的训练,选取了图像的深度图作为结构信息、CL I P的图像编码器的图像嵌入作为内容信息;在推理阶段,首先提取输入视频各帧的深度图作为结构信息条件,用CL I P的文本编码器提取输入文本的文本嵌入,再利用先验模型将其映射为对应的图像嵌入作为内容信息条件,在隐空间进行条件扩散即可生成与原视频结构一致而内容与输入文本一致的新视频,通过引入时间层来进一步提升预训练的图像模型的性能,同时引入了一个结构和内容感知模型,旨在使编辑给定示例图像或文本的视频变得更加便捷。

    一种卡片组视频、录制方法及系统

    公开(公告)号:CN117692726A

    公开(公告)日:2024-03-12

    申请号:CN202311680671.2

    申请日:2023-12-08

    申请人: 颜厥护

    发明人: 颜厥护

    IPC分类号: H04N21/85 H04N21/472

    摘要: 本发明公开了一种卡片组视频、录制方法及系统,涉及教学视频制作技术领域,通过重新设计视频数据结构,让视频数据容量更小,更容易传播,创建卡片视频制作底图和录制绘制轨迹、音频,从而构建片段式的卡片视频,若干组卡片视频组成卡片组视频,让教学视频录制效率提升起来,利用视频修改和传播,提高交互性,更适合学习的习惯,适合学习者观看。

    用于按需渲染帧的视频生成系统

    公开(公告)号:CN115039401B

    公开(公告)日:2024-01-26

    申请号:CN202180011951.7

    申请日:2021-01-22

    申请人: 斯纳普公司

    IPC分类号: H04N7/15 H04N21/234 H04N21/85

    摘要: 按需生成帧的方法开始于系统从客户端设备接收对媒体内容项的请求。请求包括媒体内容标识和主用户标识。系统向客户端设备发送包括第一组媒体内容项片段的播放列表。当在客户端设备上显示第一组媒体内容项片段时,系统使用媒体内容标识和主用户标识渲染第二组媒体内容项片段。渲染第二组媒体内容项片段可以包括基于主用户标识来渲染主用户化身,以及将主用户化身并入第二组媒体内容项片段中。系统然后更新播放列表以包括第二组媒体内容项片段。本文中公开了其他实施方式。