-
公开(公告)号:CN118803301A
公开(公告)日:2024-10-18
申请号:CN202410785790.2
申请日:2024-06-18
申请人: 暗物智能科技(广州)有限公司
IPC分类号: H04N21/234 , G06F40/284 , G06N3/0455 , G06N3/08 , G06F18/25 , H04N21/2343 , H04N21/233 , H04N21/235 , H04N21/44 , H04N21/4402 , H04N21/439 , H04N21/435
摘要: 本发明公开了一种多模态驱动的视频生成方法、装置、计算机设备及可读存储介质,包括:首先获取用户需求文本和多媒体内容,通过编码处理得到对应的特征向量。接着,利用预先训练的多模态融合模型将这些特征向量融合,生成一个融合特征向量。该融合向量被输入到预先训练的视频生成模型中,以产生初始视频内容。同时,此融合特征向量还与初始视频一起被送入音频生成模型,以生成相应的音频。最后,将初始视频与生成的音频进行拼接,形成最终的目标视频。如此设计,通过多模态信息的深度融合,实现了视频内容的个性化和丰富性,满足了用户对高质量视频的需求。
-
公开(公告)号:CN118503496A
公开(公告)日:2024-08-16
申请号:CN202410931652.0
申请日:2024-07-12
申请人: 暗物智能科技(广州)有限公司
IPC分类号: G06F16/9032 , G06N20/00 , G06Q50/20
摘要: 本发明公开了一种基于多模态交互的家教问答方法及装置,包括:首先通过采集用户的视频、音频及主动输入数据,对这些多模态数据进行编码处理,生成对应的特征向量。这些向量被输入到一个预先训练并经过教育领域数据微调的多模态大模型中,以获取针对当前问题的执行策略。最后,基于该策略生成针对性的教学答复内容。如此设计,充分利用了多模态信息,提高了家教问答系统的交互性和教学效果。
-
-
公开(公告)号:CN117808942B
公开(公告)日:2024-07-05
申请号:CN202410223607.X
申请日:2024-02-29
申请人: 暗物智能科技(广州)有限公司
IPC分类号: G06T13/40 , G06F40/30 , G06F16/332 , G06F16/33 , G06T19/20 , G10L13/027 , G10L13/033 , G10L13/08 , G10L19/008 , G10L25/24
摘要: 本发明公开了一种语义强相关的3D数字人动作生成方法及系统,方法包括:对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳;基于基底动作生成模型生成与音频对应的基底动作序列;将关键词序列中的关键词与动作序列数据库中的语义进行搜索匹配,计算每个关键词对应的动作序列,得到关键词—动作字典;将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3D数字人动作序列。本发明生成的3D数字人的动作更加自然生动,且满足3D数字人与用户实时交互的需求。
-
公开(公告)号:CN118250529A
公开(公告)日:2024-06-25
申请号:CN202410658653.2
申请日:2024-05-27
申请人: 暗物智能科技(广州)有限公司
摘要: 本发明公开了一种语音驱动的2D数字人视频生成方法及可读存储介质,包括:首先获取目标语音,通过音频数据处理得到相应的3D姿态序列。接着,结合目标语音和3D姿态序列,生成精确的头部动作视频。同时,利用用户图像和3D姿态序列生成身体动作视频。最后,通过智能融合技术,将头部和身体动作视频无缝结合,形成流畅的2D数字人视频。如此设计,实现了语音与数字人动作的精准匹配,提升了数字人视频的真实感和自然度,为相关应用提供了高效、便捷的解决方案。
-
公开(公告)号:CN117808942A
公开(公告)日:2024-04-02
申请号:CN202410223607.X
申请日:2024-02-29
申请人: 暗物智能科技(广州)有限公司
IPC分类号: G06T13/40 , G06F40/30 , G06F16/332 , G06F16/33 , G06T19/20 , G10L13/027 , G10L13/033 , G10L13/08 , G10L19/008 , G10L25/24
摘要: 本发明公开了一种语义强相关的3D数字人动作生成方法及系统,方法包括:对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳;基于基底动作生成模型生成与音频对应的基底动作序列;将关键词序列中的关键词与动作序列数据库中的语义进行搜索匹配,计算每个关键词对应的动作序列,得到关键词—动作字典;将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3D数字人动作序列。本发明生成的3D数字人的动作更加自然生动,且满足3D数字人与用户实时交互的需求。
-
公开(公告)号:CN118503496B
公开(公告)日:2024-11-08
申请号:CN202410931652.0
申请日:2024-07-12
申请人: 暗物智能科技(广州)有限公司
IPC分类号: G06F16/9032 , G06N20/00 , G06Q50/20
摘要: 本发明公开了一种基于多模态交互的家教问答方法及装置,包括:首先通过采集用户的视频、音频及主动输入数据,对这些多模态数据进行编码处理,生成对应的特征向量。这些向量被输入到一个预先训练并经过教育领域数据微调的多模态大模型中,以获取针对当前问题的执行策略。最后,基于该策略生成针对性的教学答复内容。如此设计,充分利用了多模态信息,提高了家教问答系统的交互性和教学效果。
-
公开(公告)号:CN117647661A
公开(公告)日:2024-03-05
申请号:CN202311373444.5
申请日:2023-10-20
申请人: 暗物智能科技(广州)有限公司
摘要: 本申请公开了一种物体状态的检测方法、装置、电子设备及存储介质。该方法包括:获取目标物体在当前时刻的原始加速度,并从所述原始加速度中提取目标加速度分量;确定所述目标加速度分量在预设时间周期内的数值变化范围;计算所述目标物体在所述预设时间周期内的位移数据;基于所述数值变化范围以及所述位移数据确定所述目标物体的状态信息。本申请提供的方法通过从原始加速度中提取不包括重力加速度的目标加速度分量,并结合目标加速度分量的数值变化范围和位移数据分析目标物体的状态信息,相比现有技术本申请不再需要结合物体的角度进行判断物体状态,且提高了检测物体抱起状态的精度,降低了误判的概率,同时简化了计算过程。
-
-
-
-
-
-
-