语音信号的处理设备及方法
    1.
    发明公开

    公开(公告)号:CN117649848A

    公开(公告)日:2024-03-05

    申请号:CN202211632447.1

    申请日:2022-12-19

    Abstract: 本申请实施例提供了一种语音信号的处理设备及方法,涉及语音处理技术领域。该语音信号的处理方法包括:检测器,被配置为获取语音信号;控制器,被配置为:提取所述语音信号的各个音频帧的语义特征和情绪特征,然后对所述语音信号的各个语音帧的语义特征和情绪特征进行多模态双线性池化,再获取所述语音信号的各个语音帧的融合特征,最终对所述语音信号的各个语音帧的融合特征进行合并,得到所述语音信号的声学特征,本申请实施例用于解决在提取语音特征时,语音特征的表达能力不强的问题。

    一种服务器、人物模型表情基的驱动方法及存储介质

    公开(公告)号:CN116309993A

    公开(公告)日:2023-06-23

    申请号:CN202310183446.1

    申请日:2023-02-28

    Inventor: 刘韶

    Abstract: 本公开涉及一种服务器、人物模型表情基的驱动方法及存储介质,涉及机器视觉技术领域。其中,该服务器包括:控制器,被配置为:获取第一人物模型的第一表情基,以及第二人物模型的第二表情基,第一人物模型和第二人物模型的点面拓扑结构不同,第一表情基包括M个第一混合形状,第二表情基包括N个第二混合形状;根据M个第一混合形状和N个第二混合形状进行拟合,确定第二表情基对应的拟合系数矩阵和残差系数矩阵;根据第二表情基对应的拟合系数矩阵和残差系数矩阵,计算驱动系数;根据驱动系数驱动第二人物模型。本公开实施例提升了人物模型表情基的驱动效率。

    显示设备和动作驱动模型的训练方法

    公开(公告)号:CN119417957A

    公开(公告)日:2025-02-11

    申请号:CN202411549373.4

    申请日:2024-10-31

    Inventor: 刘韶 成刚 于子亿

    Abstract: 本申请涉及一种显示设备,包括:显示器,被配置为显示来自广播系统或网络和/或用户接口的内容;以及至少一个处理器,其与所述显示器连接,并且被配置为执行指令以使所述显示设备:响应于语音查询指令,获取对应的回复文本,基于所述回复文本,生成音频数据、文本数据以及动作控制数据;通过动作驱动模型对所述音频数据、所述文本数据以及所述动作控制数据进行处理,得到动作驱动数据;播放所述音频数据和目标视频,并控制所述显示器显示所述回复文本,所述目标视频为基于所述动作驱动数据对虚拟对象进行控制生成的视频。肢体动作更加灵动。

    一种服务器、显示设备及数字人生成方法

    公开(公告)号:CN117995160A

    公开(公告)日:2024-05-07

    申请号:CN202311801123.0

    申请日:2023-12-26

    Inventor: 刘韶

    Abstract: 本申请一些实施例示出一种服务器、显示设备及数字人生成方法,所述方法包括:获取设定的口型风格及情绪风格,以及确定播报文本及回复情绪;将播报文本或播报语音输入通用口型驱动模型,得到无风格口型系数序列;将口型风格及无风格口型系数序列输入风格口型驱动模型,得到风格口型系数序列;将情绪风格、回复情绪及无风格口型系数序列输入风格情绪驱动模型,得到风格情绪系数序列;基于风格口型系数序列和风格情绪系数序列生成数字人系数序列。本申请实施例通过对通用口型驱动模型、风格口型驱动模型及风格情绪驱动模型进行分模型分阶段训练,可实现口型与情绪的驱动分离,实现不同风格口型和风格情绪的组合,使得数字人情绪表达更加自然。

    一种数字人驱动方法、设备和存储介质

    公开(公告)号:CN117808938A

    公开(公告)日:2024-04-02

    申请号:CN202310758892.0

    申请日:2023-06-25

    Inventor: 刘韶 鲁翔 王冰

    Abstract: 本申请提供了一种数字人驱动方法、设备和存储介质,涉及人机交互技术领域。该数字人驱动方法包括获取待驱动文本,并确定资源占用率;在确定资源占用率小于或者等于占用率阈值,且根据待驱动文本在第一方案库中,匹配到初级驱动方案时,使用初级驱动方案驱动数字人;在确定资源占用率小于或者等于占用率阈值,且根据待驱动文本在第一方案库中,未匹配到初级驱动方案时,发送驱动申请;在接收到目标驱动方案时,使用目标驱动方案驱动数字人。本申请用于解决终端在运行数字人的过程中,可能会因为资源、网络、以及并发等因素出现卡顿、无法运行,导致用户体验较差的问题。

    一种显示设备及虚拟数字人生成方法

    公开(公告)号:CN117809632A

    公开(公告)日:2024-04-02

    申请号:CN202310877116.2

    申请日:2023-07-17

    Abstract: 本申请一些实施例示出一种显示设备及虚拟数字人生成方法,所述方法包括:接收用户输入的第一语音数据;获取第二语音数据;将第二语音数据切分为多个音频数据;将音频数据输入第一矢量化自动编码器,获取语音特征;将语音特征投影到文本动作字典,获取第一嵌入字典表征;将第一嵌入字典表征输入解码器中,获取预测关节点序列;基于预测关节点序列绘制虚拟数字人;在播放音频数据时控制显示器显示音频数据对应的虚拟数字人。本申请实施例结合文本数据与矢量化自动编码器方法学习得到文本动作字典,将经编码后语音特征数据投影到文本动作字典,使得编码后的语音特征具有更加准确的高层动作语义特征,从而提高解码后动作姿态序列的准确性。

    一种虚拟数字人驱动方法、装置、设备和介质

    公开(公告)号:CN118891616A

    公开(公告)日:2024-11-01

    申请号:CN202380027498.8

    申请日:2023-03-01

    Abstract: 涉及一种虚拟数字人驱动方法、装置、设备和介质,包括:获取用户信息,用户信息包括语音信息和图像信息;根据用户信息,确定用户意图和用户情感;根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。

    说话风格生成方法、装置、电子设备和存储介质

    公开(公告)号:CN115270922A

    公开(公告)日:2022-11-01

    申请号:CN202210714001.7

    申请日:2022-06-22

    Inventor: 刘韶

    Abstract: 本公开涉及一种说话风格生成方法、装置、电子设备和存储介质该方法包括:基于多个风格特征属性拟合目标风格特征属性,确定各风格特征属性的拟合系数;根据所述各风格特征属性的拟合系数和多个风格特征向量,确定目标风格特征向量,所述多个风格特征向量与所述多个风格特征属性一一对应;将所述目标风格特征向量输入至说话风格模型中,输出目标说话风格参数,所述说话风格模型是基于所述多个风格特征向量训练说话风格模型的框架得到的;基于所述目标说话风格参数,生成目标说话风格。该方法能够实现说话风格的快速迁移,提升说话风格的生成效率。

Patent Agency Ranking