-
公开(公告)号:CN118588111B
公开(公告)日:2024-11-05
申请号:CN202411063405.X
申请日:2024-08-05
申请人: 深圳市马博士网络科技有限公司
摘要: 本申请涉及噪音检测技术领域,提供了基于物联网的环境噪音监管方法及系统。其中,该方法用于基于物联网的环境噪音监管系统,所述基于物联网的环境噪音监管系统设于被监管区域的中心位置,所述基于物联网的环境噪音监管系统与所述被监管区域的各个移动终端通信连接,该方法包括,获取目标移动终端在预设时间段内发送的噪音音频;基于所述噪音音频获取目标降噪方式,获取所述目标移动终端的位置信息,并基于所述位置信息确定目标管理员,及将所述目标降噪方式发送至所述目标管理员,以使所述目标管理员基于所述目标降噪方式进行降噪管理,该方法实现了对所述监控区域内的环境噪音进行全面监管,并提高了噪音监管效率。
-
公开(公告)号:CN117079664B
公开(公告)日:2024-11-05
申请号:CN202311036079.9
申请日:2023-08-16
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L21/10 , G06N3/0455 , G06N3/084 , G10L21/18 , G10L25/27
摘要: 本公开提供了一种口型驱动及其模型训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、虚拟现实、增强现实等技术,可用于数字人、元宇宙场景。具体实现方案为:获取预测音频数据和预测虚拟形象的预测驱动参考数据;提取预测音频数据在不同口型驱动任务下的预测共享音频特征;其中,口型驱动任务包括对不同虚拟形象进行口型驱动的任务;对预测共享音频特征进行特征变换,得到预测虚拟形象对应目标口型驱动任务下的预测任务音频特征;对预测驱动参考数据进行特征编码,得到预测驱动参考特征;对预测驱动参考特征以及预测任务音频特征进行特征解码,确定预测虚拟形象的口型驱动结果。
-
公开(公告)号:CN118865997A
公开(公告)日:2024-10-29
申请号:CN202410755550.8
申请日:2024-06-12
申请人: 广州虎牙科技有限公司
发明人: 林哲
摘要: 本发明涉及计算机视觉技术领域,公开了一种虚拟数字人驱动方法、装置、设备及存储介质。虚拟数字人驱动方法包括:获取虚拟数字人的第一驱动信号,其中,第一驱动信号包括音频帧序列与图片帧序列;将每一音频帧输入训练好的语音编码器进行语音编码,以及将每一图片帧输入训练好的图片编码器进行图片编码;分别将每一帧语音编码和图片编码拼接成一帧输入向量,并将每一帧输入向量输入训练好的扩散模型进行图片解码,输出对应帧输出图像;将当前帧输出图像替换第一驱动信号中的对应图片帧,得到虚拟数字人的第二驱动信号,并基于第二驱动信号驱动虚拟数字人。本发明提升了图像生成质量,进而使虚拟数字人的显示效果更加逼真。
-
公开(公告)号:CN118098266B
公开(公告)日:2024-10-01
申请号:CN202410151187.9
申请日:2024-02-02
申请人: 中创科技(广州)有限公司
发明人: 汪刚
摘要: 本发明公开了一种基于多模型选择的语音数据处理方法及装置,该方法包括:获取目标用户的多个语音数据;根据预设的语音筛选算法,从所述多个语音数据中筛选出具有图像生成目的的目标语音数据;根据所述目标语音数据的数据参数,从多个候选算法模型中确定出对应的图像生成算法模型;将所述目标语音数据输入至所述图像生成算法模型,以得到所述目标语音数据对应的图像数据。可见,本发明能够提高根据语音生成图像的自动化程度和智能化程度,减少用户操作成本,提高算法效率和效果。
-
公开(公告)号:CN118692484A
公开(公告)日:2024-09-24
申请号:CN202410940948.9
申请日:2024-07-12
申请人: 支付宝(杭州)信息技术有限公司
摘要: 本说明书提供一种唇形确定方法,获取数字人带播报的文本数据,并确定文本数据中每个音素的播报时间段,将每个音素的播报时间段均划分为三个时间段,其中,三个之间段的中间的时间段,可以通过查音素‑唇形映射表来确定所需维持的关键帧唇形,另外两个时间段可以利用该音素的关键帧唇形分别和该音素前后的关键帧唇形之间的插值来确定。这样,将每个音素的播报时间段划分为三份,仅中间的时间段用于维持当前音素的唇形,另外的时间段都用于和前一个音素的唇形或后一个音素的唇形之间进行过渡,这样可以使得唇形变化更加逼真自然。
-
公开(公告)号:CN118692483A
公开(公告)日:2024-09-24
申请号:CN202410755562.0
申请日:2024-06-12
申请人: 世优(北京)科技股份有限公司
摘要: 本申请提供了一种口型驱动数据的生成方法及装置,其中,该方法包括:获取音频数据和口型驱动参考数据,其中,所述口型驱动参考数据是与预选的口型驱动任务对应的用于驱动口型的参考数据;从所述音频数据中提取初始音频特征,并对所述初始音频特征进行特征变换,得到处理后的音频特征,其中,所述初始音频特征是不同的口型驱动任务共用的音频特征,所述处理后的音频特征是与所述预选的口型驱动任务对应的音频特征;对所述口型驱动参考数据进行特征编码,得到驱动参考特征;基于所述处理后的音频特征和所述驱动参考特征,生成用于驱动虚拟对象口型的口型驱动数据。本申请解决了不同口型驱动任务下的口型驱动准确度较低的技术问题。
-
公开(公告)号:CN118691722A
公开(公告)日:2024-09-24
申请号:CN202410705598.8
申请日:2024-05-31
申请人: 杭州像素互动科技有限公司
IPC分类号: G06T13/40 , H04N5/04 , G10L21/10 , G06V40/16 , G06F18/213
摘要: 本申请实施例提供了一种数字人的唇音同步方法、电子设备及计算机存储介质,其中,数字人的唇音同步方法包括:获取音频数据和数字人的表情特征数据;根据音频数据获取语音特征数据;将数字人的表情特征数据和语音特征数据输入语音提取表情特征模型,获得数字人的目标表情系数;其中,语音提取表情特征模型是以根据音画同步视频样本确定的表情特征样本和语音特征样本为输入、结合预训练的唇音同步模型进行训练得到的,唇音同步模型用于得到人的唇音同步概率。通过本申请实施例,可以使得数字人在说话视频中唇音更加同步,提升了显示效果。
-
公开(公告)号:CN118689303A
公开(公告)日:2024-09-24
申请号:CN202410716699.5
申请日:2024-06-04
申请人: 咪咕文化科技有限公司 , 中国移动通信集团有限公司
发明人: 李宏龙
IPC分类号: G06F3/01 , G06F3/04815 , G06F3/0484 , G06F40/30 , G10L13/08 , G10L21/10 , G06V40/20 , G06T13/40
摘要: 本公开涉及一种控制方法、装置、电子设备及存储介质,其方法包括:获取目标用户的肢体动作,并获取目标用户对应的目标虚拟形象;将肢体动作转换为语言信息,语言信息包括情感信息和文本信息。基于情感信息确定语言信息对应的面部表情,并基于面部表情和文本信息确定语言信息对应的面部动作。驱动目标虚拟形象执行面部动作,并基于文本信息和情感信息进行语音播报。上述控制方法能够将用户的肢体动作转换为语言信息,进一步得到该语言信息对应的面部动作,根据语言信息驱动并驱动用户对应的虚拟形象进行发音并执行该面部动作,实现了通过肢体动作来驱动虚拟形象的面部,用户不用发出声音也能驱动对应的虚拟形象面部,提高了用户的体验感。
-
公开(公告)号:CN118212934B
公开(公告)日:2024-09-06
申请号:CN202410628938.1
申请日:2024-05-21
申请人: 江苏物润船联网络股份有限公司
摘要: 本申请涉及语音识别技术领域,具体涉及基于语音识别的数字人嘴型智能驱动方法,该方法包括:采集低信噪比音频数据,分解后得到各音频分信号,分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度,获取各音频分信号的分形维信号各位置的分信号分形维突变度,结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值,根据原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动。本申请旨在提高低信噪比音频数据进行数字人嘴型驱动的准确度。
-
公开(公告)号:CN118588111A
公开(公告)日:2024-09-03
申请号:CN202411063405.X
申请日:2024-08-05
申请人: 深圳市马博士网络科技有限公司
摘要: 本申请涉及噪音检测技术领域,提供了基于物联网的环境噪音监管方法及系统。其中,该方法用于基于物联网的环境噪音监管系统,所述基于物联网的环境噪音监管系统设于被监管区域的中心位置,所述基于物联网的环境噪音监管系统与所述被监管区域的各个移动终端通信连接,该方法包括,获取目标移动终端在预设时间段内发送的噪音音频;基于所述噪音音频获取目标降噪方式,获取所述目标移动终端的位置信息,并基于所述位置信息确定目标管理员,及将所述目标降噪方式发送至所述目标管理员,以使所述目标管理员基于所述目标降噪方式进行降噪管理,该方法实现了对所述监控区域内的环境噪音进行全面监管,并提高了噪音监管效率。
-
-
-
-
-
-
-
-
-