-
公开(公告)号:CN117079664A
公开(公告)日:2023-11-17
申请号:CN202311036079.9
申请日:2023-08-16
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L21/10 , G06N3/0455 , G06N3/084 , G10L21/18 , G10L25/27
摘要: 本公开提供了一种口型驱动及其模型训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、虚拟现实、增强现实等技术,可用于数字人、元宇宙场景。具体实现方案为:获取预测音频数据和预测虚拟形象的预测驱动参考数据;提取预测音频数据在不同口型驱动任务下的预测共享音频特征;其中,口型驱动任务包括对不同虚拟形象进行口型驱动的任务;对预测共享音频特征进行特征变换,得到预测虚拟形象对应目标口型驱动任务下的预测任务音频特征;对预测驱动参考数据进行特征编码,得到预测驱动参考特征;对预测驱动参考特征以及预测任务音频特征进行特征解码,确定预测虚拟形象的口型驱动结果。
-
公开(公告)号:CN117059123A
公开(公告)日:2023-11-14
申请号:CN202310928326.X
申请日:2023-07-26
申请人: 中国科学院自动化研究所
摘要: 本发明提供一种基于手势动作图的小样本数字人语音驱动动作重演方法,方法包括:对参考讲话数据进行节奏点检测、关键词检测和运动连续性检测,分别得到第一节奏点的位置、第一关键词和对应的位置和非自然帧间连续关系;基于第一节奏点位置、第一关键词和对应的位置以及非自然帧间连续关系,构建手势运动图;对测试讲话数据进行节奏点检测、关键词检测,分别得到第二节奏点位置、第二关键词和对应的位置;基于第二节奏点位置、第二关键词和对应的位置,确定搜索分段,并基于搜索分段得到重演手势;基于手势风格融合网络输出融合手势,基于融合手势和节奏性手势,确定最终手势,基于最终手势驱动数字人动作重演,提高了动作重演的准确性和可靠性。
-
公开(公告)号:CN116996630A
公开(公告)日:2023-11-03
申请号:CN202310964008.9
申请日:2023-08-02
申请人: 北京中科闻歌科技股份有限公司
IPC分类号: H04N5/262 , G10L21/10 , G10L21/18 , H04N5/265 , G06N3/0475 , G06N3/094 , G06F16/332
摘要: 本发明提供了一种实时问答虚拟人视频生成方法、电子设备及存储介质,方法包括:基于待播报信息获取对应的场景视频;对音频文件进行特征提取,得到对应的音频特征;基于场景视频和音频特征,生成口型与音频特征相匹配的场景视频,作为初始人脸驱动视频;基于场景视频中的目标图像以及初始驱动视频,获取对应的人脸关键点、人脸深度图和人脸的RGB编码特征;基于获取的人脸关键点、人脸深度图和人脸的RGB编码特征,得到目标人脸驱动视频;利用目标人脸驱动视频中的人脸替换场景视频中的人脸,得到虚拟人视频;将虚拟人视频和音频文件进行合成,得到待播报的虚拟人播报视频。本发明能够提高虚拟人视频的制作效率。
-
公开(公告)号:CN116994600A
公开(公告)日:2023-11-03
申请号:CN202311264980.1
申请日:2023-09-28
申请人: 中影年年(北京)文化传媒有限公司
摘要: 本申请公开了一种基于音频驱动角色口型的方法及系统。其首先获取数字人驱动音频,接着,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,然后,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令。其中,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;以及,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。这样,可以利用深度神经网络从音频信号中提取出语音特征,并将这些特征自动化地映射到角色的口型参数上,从而实现音频到口型的转换。
-
公开(公告)号:CN116958346A
公开(公告)日:2023-10-27
申请号:CN202310698499.7
申请日:2023-06-13
申请人: 腾讯科技(深圳)有限公司
发明人: 沈咸飞
摘要: 一种三维虚拟角色的表情驱动方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:播放音频数据,音频数据对应的表情系数文件中包括音频数据的至少一个音频帧分别对应的表情系数,音频帧对应的表情系数用于驱动三维虚拟角色做出与音频帧的音频内容相匹配的表情;根据音频数据的播放进度,从表情系数文件中获取与播放进度对应的表情系数;根据播放进度对应的表情系数,控制三维虚拟角色做出与播放进度对应的音频内容相匹配的表情。相比于直接根据音频数据确定三维虚拟角色的网格信息,本方法根据音频数据确定表情系数,使用表情系数调整三维虚拟角色的表情,使得本方法对于不同的三维虚拟角色的表情驱动具有较好的普适性。
-
公开(公告)号:CN116957669A
公开(公告)日:2023-10-27
申请号:CN202211514795.9
申请日:2022-11-29
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06Q30/0241 , G10L13/08 , G10L21/10 , G06F40/131
摘要: 本申请属于广告设计技术领域,涉及一种广告生成方法、装置、计算机可读介质及电子设备,包括:获取图片素材和广告文案,对所述广告文案进行语音合成以生成与所述广告文案对应的语音信息;获取虚拟主播模型,根据所述广告文案或者所述语音信息确定与所述虚拟主播模型对应的展示参数,并根据所述图片素材、所述语音信息和所述展示参数对所述虚拟主播模型进行渲染生成虚拟主播口播视频;基于所述虚拟主播口播视频创建广告。本申请一方面能够减少人力成本,另一方面能够提升广告的多样性,而不受模板设计师的创意思路的限制,避免了PAG视频模板种类少所导致的图片素材、广告文案与模板的匹配度差的问题。
-
公开(公告)号:CN116913264A
公开(公告)日:2023-10-20
申请号:CN202311008626.2
申请日:2023-08-10
申请人: 中国工商银行股份有限公司
IPC分类号: G10L15/18 , G10L21/055 , G10L21/10
摘要: 本说明书涉及人工智能技术领域,具体地公开了一种数字人播报视频生成方法及装置,其中,该方法包括:接收播报指令;所述播报指令中包括输入文本数据;根据所述输入文本数据,确定待播报的语音数据、唇语数据和手语数据;对所述语音数据、所述唇语数据和所述手语数据进行特征提取,得到语音特征、唇形特征和手语特征;基于所述语音特征、所述唇形特征和所述手语特征,对所述语音数据、所述唇语数据和所述手语数据进行同步,生成目标数字人播报视频。上述方案可以让数字人播报语音的同时使用唇语和手语,可以改善用户体验。
-
公开(公告)号:CN116400806B
公开(公告)日:2023-10-17
申请号:CN202310341370.0
申请日:2023-04-03
申请人: 中国科学院心理研究所 , 北京智精灵科技有限公司
IPC分类号: G06F3/01 , G06T13/00 , G10L21/10 , G06V40/16 , G06F16/535 , G06F16/635
摘要: 本发明公开了一种个性化虚拟人的生成方法及系统。该生成方法包括如下步骤:基于目标群体的文本信息和声音信息,预先建立通用虚拟人模型和通用声音模型;获取用户偏好的通用虚拟人模型和通用声音模型;获取用户的偏好面孔信息和偏好音乐信息;基于用户偏好的通用虚拟人模型与偏好面孔信息,生成个性化面孔模型;基于用户偏好的通用声音模型与偏好音乐信息,生成个性化声音模型;根据个性化面孔模型与个性化声音模型,融合生成个性化虚拟人。该生成方法通过真实场景中的医生形象建模,采用人脸融合技术提取医生共有的面部特征值,建立虚拟医生模版,进一步通过用户自主选择熟悉的面孔和声音,与虚拟人进行融合生成高度个性化的虚拟人。
-
公开(公告)号:CN116840642A
公开(公告)日:2023-10-03
申请号:CN202310861156.8
申请日:2023-07-13
申请人: 国网四川省电力公司攀枝花供电公司
IPC分类号: G01R31/12 , G10L25/03 , G10L25/18 , G10L25/51 , G10L21/0216 , G10L21/0356 , G10L21/10
摘要: 本发明公开了一种多端共联的局放成像检测系统,包括:特征数据库模块、客制连接模块、终端共享模块、计算协同模块、空间定位模块、异常数据同步连接模块和声波可视融合模块。通过加入终端连接并客制进入检测逻辑,能够让整个系统,在建立和应用的过程前后,根据用户自身需求和喜好进行终端的分布预设,并匹配相应的计算逻辑,同时,可以实现连接不同的满足需求类型的终端,从而使系统所接入的包括传感器在内的终端,可以更为灵活的更换以及维修,且不会影响设备的运行;以局部放电可视化方式实现设备快速检测和局放位置精准定位,提升电网带电检测水平和检测效率,确保电网设备可靠运行。
-
公开(公告)号:CN116681802A
公开(公告)日:2023-09-01
申请号:CN202310583239.5
申请日:2023-05-23
申请人: 厦门黑镜科技有限公司
IPC分类号: G06T13/20 , G06T13/40 , G06F16/332 , G06F16/33 , G10L15/22 , G10L21/055 , G10L21/10
摘要: 本发明公开了一种虚拟形象的交互控制方法、装置、电子设备和存储介质,该方法包括:获取用户的语音请求,根据所述语音请求生成目标虚拟形象;根据所述语音请求从预设应答数据库中获取应答语音数据;根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画,以此通过符合语音请求的虚拟形象与用户进行互动,进一步提高了虚拟形象的交互效率,提升了用户体验。
-
-
-
-
-
-
-
-
-